图文跨模态“近视”问题破局:360开源新模型 FG-CLIP,实现细粒度图文对齐突破|ICML2025

同时,FG-CLIP 保留了原有的短描述-图像对齐机制,使长短描述形成互补。当前普遍使用的图文跨模态模型如 OpenAI CLIP,EVA-CLIP 等,仍是基于第一代的整体图文对比学习算法训练得到,它们擅长捕捉全局信息,却难以分辨物体的细微属性差异,在处理细粒度视觉理解时面临非常大的挑战。然而,受限于基于图文整体特征对齐的对比学习原理,初代 CLIP 模型因其基于图文整体特征进行对齐的对比学习原理,一直存在图文特征对齐粒度粗,无法实现图文细粒度理解的核心难题,制约了它在搜索、推荐、识别中的应用效果。