业务:
反作弊方法论:拥有完善的反作弊方法论,并且在反爬、刷量、帐号安全、反垃圾、反诈 骗和广告反作弊等业务进行最佳实践。
对抗经验:丰富的黑灰产对抗经验,了解黑灰产最新动向,经历过机器对抗向真人(众包) 对抗过程,建立了完善的⻛控体系。
熟悉业务:熟悉阿里、百度等广告系统架构以及整个投放链路,了解直播、短视频、社交、推荐、搜索等业务玩法。
工程:
⻛控架构:精通TM和 flink,了解Storm、Spark、milewheel等流处理框架。
模型架构:设计并实现了广告领域全局用户档案(特征中心),实现超⻓窗口的细粒度滑动计算。
开源架构:熟悉Hadoop实现及系统架构,了解Hive、Hbase、Redis、 Zookeeper、Kafka、RocketMQ及LevelDB等开源项目
算法:
概率统计:熟悉指数族(二项、多项、高斯),规划了分布异常检测算法,用于挖掘(发现) 聚集性作弊。
机器学习:熟悉LR、GBDT、RF等常⻅机器学习模型,完成注册分、行为异常分和众包号等多个分类模型。
深度学习:熟悉DNN、CNN、RNN等深度模型原理,完成养号、交易号、可疑杀猪盘等多个内容模型。
图学习: 熟悉经典LPA、Louvain等社区发现算法,了解Graph Embedding表示学习原理。
反作弊通用算法
项目背景: 反作弊通用算法方法论,支持流量业务在线过滤需求
责任描述:
1. 完善反作弊波动性和粒子性理论;
2. 作弊ID记忆模型,流式训练记忆历史一年作弊pattern;
3. 用户行为异常模型,通过用户侧连续值特征提升模型泛化能力;
4. 多特征异常检测模型,纯白样本训练AutoEncoder模型刻画正常分布。
主要业绩:
1. ID模型增量训练时间<5min,f1 0.94 recall 0.90 precision 0.99;
2. 相关系数、GBDT及人工经验特征选择,去除93%冗余特征;
3. 多特征异常检测模型+DNN二分类模型,f1 0.969 recall 0.949 precision
反作弊特征中心
责任描述:
1. 设计实时、离线统一特征中心,包括特征元数据管理、自动代码生成等模块
2. 确定特征中心后端存储选型,以及提供实时特征查询服务;
3. 社区发现,用户侧作弊识别。
主要业绩:
1. 离线计算时间<30min(半年窗口count、avg、distinct等算子),新增特征迭代<0.5人天;
2. 确定特征中心后端存储选型,以及提供实时特征查询服务;
3. 构建用户知识图谱,设计一阶同人模型,供直通⻋、直播等多个业务使用;
4. 引入点击宝⻉和类目为边,基于gcn识别作弊用户,召回提升约20%。