Know yourself的案例列表

弱监督视觉定位

人工智能-其他 Know yourself

任务目标:弱监督视觉落地旨在仅有图像-文本对而没有目标物体位置标注的条件下,定位到与自然语言查询最相关的目标物体。 1. 通过多模态预训练模型为物体框生成伪查询,并利用伪查询与真实查询之间的单模态相似度为样本生成更高质量的伪标签 2. 引入外部多模态大模型抑制噪声对模型训练的影响 3. 在公共的5个数据集上均取得了SOTA的表现...

弱监督视觉定位
弱监督视觉定位

语义关系增强的视觉定位

人工智能-其他 Know yourself

视觉定位旨在根据自然语言查询定位图像中提及的目标物体。尽管近期已取得一定进展,但在存在多重实例干扰(与目标同类的多个物体)的场景中准确定位目标物体仍面临重大挑战。现有方法在图像存在多重干扰时表现出显著的性能下降,这表明模型对物体间细粒度语义及空间关系的理解仍存在不足。本文提出一种新颖的解决方案——关系与语义敏感的视觉定位模型(ReSVG)。首先,我们通过向模型注入源自文本查询的语义先验信息,增强其对细粒度语义的理解。这通过利用文本到图像生成模型生成能表征查询所述目标物体语义属性的图像来实现。其次,针对多重干扰训练样本不足的问题,我们提出一种关系敏感的数据增强方法。该方法通过合成包含同类多物体及...

语义关系增强的视觉定位
语义关系增强的视觉定位
------ 加载完毕 ------
联系需求方端客服