机器学习方向的模型训练、测试。包括但不限于纯计算机视觉方向的分类,检测任务模型的训练和测试;文本方向的预训练,分类,翻译等等模型的训练和测试;大模型方向在特定任务上的有监督微调和推理测试;以及多模态任务如grounding,caption等任务的训练和测试。
内容审核模型的训练,包括但不限于文本模型embedding的预训练,视觉分类模型的训练以及现有大模型(QwenVL和InternVL在图片和文字上的有监督微调训练)
任务目标:弱监督视觉落地旨在仅有图像-文本对而没有目标物体位置标注的条件下,定位到与自然语言查询最相关的目标物体。 1. 通过多模态预训练模型为物体框生成伪查询,并利用伪查询与真实查询之间的单模态相似度为样本生成更高质量的伪标签 2. 引入外部多模态大模型抑制噪声对模型训
视觉定位旨在根据自然语言查询定位图像中提及的目标物体。尽管近期已取得一定进展,但在存在多重实例干扰(与目标同类的多个物体)的场景中准确定位目标物体仍面临重大挑战。现有方法在图像存在多重干扰时表现出显著的性能下降,这表明模型对物体间细粒度语义及空间关系的理解仍存在不足。本文提出一种