大模型“卷”向多模态, 深度解析蚂蚁实践思路
值得一提的是,这里的单模态主要指文本以外的模态,行业中最早的研究主要集中在图像和语音领域,很多研究成果也都源于这些方向。首先,需要让不同模态能够共享表征,并投影到同一个空间中,让语言与视觉能够在统一的空间里进行交互与转换,从而打破模态之间的壁垒。未来,我们会将安全性放在首位,其次是体验,再进一步是美感。因此,在构建大模型时,我们始终希望它具备更强的涌现能力,从而能够在更广泛、更灵活的长尾场景中发挥作用。开源之后,我们收到了很多来自社区的反馈,也因此有了不少新的思考,这些都对后续的迭代和交流起到了很大启发。