
科技公司达摩院发布大模型测试基准GPT-4勉强及格其他模型悉数落败
在机器之心专栏中,达摩院多语言NLP团队发布了首个多语言多模态测试基准M3Exam,涵盖12317道题目。这项工作对于评估大模型的知识及推理能力至关重要,尤其是在技术公司如阿里巴巴的支持下。之前,我们通常使用人类考题来检验模型,如MMLU对英文模型的评估,或C-Eval和GAOKAO用于中文社区。
然而,对于多语言和多模态的大模型来说,这样的评测依然是空白。因此,阿里巴巴达摩院发布了首个这样的测试基准,以促进此类评测的发展,并公开了论文和数据代码。
M3Exam有三个特征:Multilingual(多语言),Multimodal(多模态),以及Multilevel(多阶段)。它涵盖9种国家语言,从官方试题中选取问题,并考虑纯文字和带图片的问题,以及三个教育阶段的小升初、初升高、高中毕业考试中的问题。
在进行测试时,我们发现大部分模型表现都很糟糕,没有任何一个能超过50%的准确率,即使与参数相近但没有图片输入作为参考的Flan-T5模型相比,大部分模型也没有体现出优势。进一步分析,我们发现可能是因为当前常见的问题比较简单,而人类考题需要更复杂地理解图像内容。
结果显示,不管是在较低还是较高教育阶段,大部分模型在基础问题上的表现并不好,但却在中等教育阶段取得最好成绩。这给我们提供了一些启发,即不断用更困难的问题去测试可能不是衡量最大限度差异的手段,而研究为什么这些基础错误会发生可能更加有价值。
最后,该文章介绍了新创建的测试基准M3Exam,其目标是为评价这种类型的大型语音识别系统提供一个可靠标准。从目前的情况来看,在单一资源强大的语言上,如英语或中文,有些系统已经能够取得不错效果,但当涉及到不同语言时,大部分系统表现均不理想。而且,在处理图片方面,大型语音识别系统还不能捕捉到精确细节。我们期待通过未来对该标准的一般化应用,将这些大型语音识别系统带入更多新的场景,使它们能够服务于所有人群,不论他们使用哪种母语。
