美图分享笔记

评论反垃圾

评论垃圾分类:

广告传播
涉黄涉政
批量攻击
评论购买
人工求关注

垃圾识别算法:

最长公共子串算法
lru
聚类

行为识别:

数据预处理

行为分析:

关注点赞等得到辅助用户行为各个维度的质量

用户分析:

回归算法

模型验证:

人工筛选
用户反馈

文本分析

磁性分析, 粒子聚网分析? 时间衰减,热力学定律

事件的 上升 衰减, 新增, 计算出事件的热点

评论 分为 正向 负向 中性
情感词匹配
支持向量机

搜索演进

模型:

繁简大小写转换
倒排索引
相关度排序
结合产品策略二次排序

问题:

搜索词太长,影响性能
单索引资源浪费,性能压力
低质量视频不值得索引

调优模型:

英文 n-gram 切词, 直接查询,相关度计算有问题

分级索引 :

先查询一级索引, 一级索引不足, 对二级索引进行补充查询
一级索引,二级索引数据比例 1:40 (5亿视频中只有一千万)
一级索引: 人工筛选,优质, 离线 ccr 算法, 剔除低转化视频数据
视频文本匹配度高,不代表转化率高,根据播放数,点赞数,评论数,搜索意图特征(搜索词在平台的类别属性映射,分为三类: 用户意图特征(用户视频,与用户有关的视频),视频分类特征(体育,美食, 旅游, 分析查询在视频标签中的概率,做特征映射 ),平台视频特征(长视频,短视频, 直播, 教程类偏向于长视频, 吃饭适合直播)), 对倾向概率向视频特征做映射。对于意图特征,使用搜索反馈日志,做模型训练。

长尾查询
语义归一

查询重写:

拼音转化
查询时序分析: 多次查询词 协同分析

个性化:

用户画像: 性别, 年龄, 收入, 职业
用户兴趣: 观看兴趣, 体现在标签体系, 美食,旅游等
用户环境: 手机机型,地点,网络,时间
用户社群: 相似的用户看同样的视频。

用户个性化排序:

数据一次排序后, 取 top N 数据,进行描述扩展,再进行数据二次排序。
描述扩展:
	通过图像分类技术识别视频一级标签
	语音识别

baidu 机器学习

房产分区分析:
poi 信息