评论反垃圾
评论垃圾分类:
广告传播
涉黄涉政
批量攻击
评论购买
人工求关注
垃圾识别算法:
最长公共子串算法
lru
聚类
行为识别:
数据预处理
行为分析:
关注点赞等得到辅助用户行为各个维度的质量
用户分析:
回归算法
模型验证:
人工筛选
用户反馈
…
文本分析
磁性分析, 粒子聚网分析? 时间衰减,热力学定律
事件的 上升 衰减, 新增, 计算出事件的热点
评论 分为 正向 负向 中性
情感词匹配
支持向量机
搜索演进
模型:
繁简大小写转换
倒排索引
相关度排序
结合产品策略二次排序
问题:
搜索词太长,影响性能
单索引资源浪费,性能压力
低质量视频不值得索引
调优模型:
英文 n-gram 切词, 直接查询,相关度计算有问题
分级索引 :
先查询一级索引, 一级索引不足, 对二级索引进行补充查询
一级索引,二级索引数据比例 1:40 (5亿视频中只有一千万)
一级索引: 人工筛选,优质, 离线 ccr 算法, 剔除低转化视频数据
视频文本匹配度高,不代表转化率高,根据播放数,点赞数,评论数,搜索意图特征(搜索词在平台的类别属性映射,分为三类: 用户意图特征(用户视频,与用户有关的视频),视频分类特征(体育,美食, 旅游, 分析查询在视频标签中的概率,做特征映射 ),平台视频特征(长视频,短视频, 直播, 教程类偏向于长视频, 吃饭适合直播)), 对倾向概率向视频特征做映射。对于意图特征,使用搜索反馈日志,做模型训练。
长尾查询
语义归一
查询重写:
拼音转化
查询时序分析: 多次查询词 协同分析
个性化:
用户画像: 性别, 年龄, 收入, 职业
用户兴趣: 观看兴趣, 体现在标签体系, 美食,旅游等
用户环境: 手机机型,地点,网络,时间
用户社群: 相似的用户看同样的视频。
用户个性化排序:
数据一次排序后, 取 top N 数据,进行描述扩展,再进行数据二次排序。
描述扩展:
通过图像分类技术识别视频一级标签
语音识别
baidu 机器学习
房产分区分析:
poi 信息