美图分享笔记

wangxiuwen 2017-09-25 技术 tech, 技术 0 评论字数统计: 649(字) 阅读时长: 2(分)

评论反垃圾

评论垃圾分类：

广告传播
涉黄涉政
批量攻击
评论购买
人工求关注

垃圾识别算法：

最长公共子串算法
lru
聚类

行为识别:

数据预处理

行为分析:

关注点赞等得到辅助用户行为各个维度的质量

用户分析：

回归算法

模型验证：

人工筛选
用户反馈
…

文本分析

磁性分析，粒子聚网分析？时间衰减，热力学定律

事件的上升衰减，新增，计算出事件的热点

评论分为正向负向中性
情感词匹配
支持向量机

搜索演进

模型：

繁简大小写转换
倒排索引
相关度排序
结合产品策略二次排序

问题:

搜索词太长，影响性能
单索引资源浪费，性能压力
低质量视频不值得索引

调优模型：

英文 n-gram 切词，直接查询，相关度计算有问题

分级索引：

先查询一级索引， 一级索引不足， 对二级索引进行补充查询
一级索引，二级索引数据比例 1：40 (5亿视频中只有一千万)
一级索引： 人工筛选，优质， 离线 ccr 算法， 剔除低转化视频数据
视频文本匹配度高，不代表转化率高，根据播放数，点赞数，评论数，搜索意图特征（搜索词在平台的类别属性映射，分为三类： 用户意图特征(用户视频，与用户有关的视频)，视频分类特征(体育，美食， 旅游, 分析查询在视频标签中的概率，做特征映射 )，平台视频特征（长视频，短视频， 直播， 教程类偏向于长视频， 吃饭适合直播））， 对倾向概率向视频特征做映射。对于意图特征，使用搜索反馈日志，做模型训练。

长尾查询
语义归一

查询重写：

拼音转化
查询时序分析： 多次查询词 协同分析

个性化：

用户画像： 性别， 年龄， 收入， 职业
用户兴趣： 观看兴趣， 体现在标签体系, 美食，旅游等
用户环境： 手机机型，地点，网络，时间
用户社群： 相似的用户看同样的视频。

用户个性化排序：

数据一次排序后， 取 top N 数据，进行描述扩展，再进行数据二次排序。
描述扩展：
	通过图像分类技术识别视频一级标签
	语音识别

baidu 机器学习

房产分区分析：
poi 信息

本文链接： https://wangxiuwen.github.io/history/tech/59c9031ac51d80451db0c00b/
版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

williamwong

Backend Developer & Music Lover

美图分享笔记

评论反垃圾

文本分析

搜索演进

baidu 机器学习