微信联系方式
微信二维码

扫描二维码添加微信

微信号:18103268866

QQ联系方式
QQ二维码

扫描二维码添加QQ

QQ号:3525642302

×
微信扫码查看

请使用微信扫描二维码查看当前页面

扫描二维码后可在微信中分享给好友

新闻动态

图文跨模态“近视”问题破局:360开源新模型 FG-CLIP,实现细粒度图文对齐突破|ICML2025

AI科技大本营 2025-05-20 4 次浏览 技术分享 CSDN

同时,FG-CLIP 保留了原有的短描述-图像对齐机制,使长短描述形成互补。当前普遍使用的图文跨模态模型如 OpenAI CLIP,EVA-CLIP 等,仍是基于第一代的整体图文对比学习算法训练得到,它们擅长捕捉全局信息,却难以分辨物体的细微属性差异,在处理细粒度视觉理解时面临非常大的挑战。然而,受限于基于图文整体特征对齐的对比学习原理,初代 CLIP 模型因其基于图文整体特征进行对齐的对比学习原理,一直存在图文特征对齐粒度粗,无法实现图文细粒度理解的核心难题,制约了它在搜索、推荐、识别中的应用效果。