同样1GB文本,为何中文训练效果差?对话EleutherAI研究员Catherine,看懂多语言模型的“诅咒”与“祝福”

然而,对我所研究的很多语言来说,我们目前的模型性能还很初级,甚至连基础的预训练工作都尚未完善,更遑论考虑智能体或强化学习这些更前沿的问题。但作为语言学家,我必须指出,尽管小模型不是唯一的研究方向,但它很好地补充了大模型的研究,为我们提供了一种经济实用的实验环境,既能避免高额计算资源的浪费,也能为未来更大规模的探索积累经验。事实上,我们去年就训练了一系列参数量约一亿的小模型,这些“小而精”的模型在某些任务上的表现甚至超过了参数规模大 80 倍的 Llama-8B,这充分证明了“小模型定制化”的潜力。