视觉定位旨在根据自然语言查询定位图像中提及的目标物体。尽管近期已取得一定进展,但在存在多重实例干扰(与目标同类的多个物体)的场景中准确定位目标物体仍面临重大挑战。现有方法在图像存在多重干扰时表现出显著的性能下降,这表明模型对物体间细粒度语义及空间关系的理解仍存在不足。本文提出一种新颖的解决方案——关系与语义敏感的视觉定位模型(ReSVG)。首先,我们通过向模型注入源自文本查询的语义先验信息,增强其对细粒度语义的理解。这通过利用文本到图像生成模型生成能表征查询所述目标物体语义属性的图像来实现。其次,针对多重干扰训练样本不足的问题,我们提出一种关系敏感的数据增强方法。该方法通过合成包含同类多物体及基于其空间关系的伪查询图像来生成额外训练数据。所提出的ReSVG模型显著提升了模型对物体语义和空间关系的理解能力,尤其在存在多重实例干扰的场景中,视觉定位任务的性能得到显著提升。我们在五个数据集上进行了大量实验以验证所提方法的有效性。