熟悉Linux、Python、PyTorch、C++、CUDA C++、大规模集群训练相关技术;
在视频文本多模态方向有着长期的经验积累,包括亿级视频样本的处理与训练、128卡级大规模集群训练等;
在视觉文本多模态领域有着从技术调研、idea思考、实验设计、代码编写与模型训练到论文撰写投稿的全流程经验。
腾讯 AI平台部 短视频特征组2021/06-2022/03
研究视频文本大规模多模态预训练前沿技术,在顶级学术会议IJCAI与ECCV投稿论文。
使用亿级视频文本数据训练多模态预训练模型,在跨模态检索、视频描述生成、视频问答等多个任务、多个数据集上达到当时的SOTA水平。
应用多模态预训练模型,提升腾讯短视频业务的技术指标
设计视频文本多模态预训练模型。使用亿级视频文本数据进行3预训练,在视频检索、视频字幕生成等多个任务多个学术数据集上达到当时的最高性能。预训练模型应用于腾讯短视频相关业务(QQ看点,微信),分类与搜索准确率获得提升。
程序的主要功能是把低分辨率、模糊的图片和视频提高分辨率与去模糊 设计模型,PyTorch训练,用CUDA C++进行模型重构,生成图像质量与其它商用软件处于相当的水平,但处理速度大幅优化,极其适用于大量视频的批量修复、去模糊、提升分辨率等 方案已加入GitHub 6K+星的开