公司是海外广告代理投放平台,有海量的广告数据,包含广告文本描述和广告素材图片,以及广告页链接,需要根据这些信息,进行广告类别预测。
项目分为基于NLP的文本类别预测,和基于图片+视频的图片类别预测两大模块。
类别选用天猫商城的21个大商品类别。
NLP类别预测使用bert预训练模型 + 爬取第三方广告数据 + 公司自身广告数据进行模型精调。
图片类别预测采用resnet50 + Inception v3的模型融合策略,视频采用ffmpeg提取关键帧方式转为图片进行类别预测。
训练数据来源于爬虫爬取存量广告素材页,落地页信息。爬虫采用线程池进行加速。
经过多轮调优,最终整体分类准确率达到85%以上,分类覆盖广告达到95%以上。