近日,一道小学数学题让AI大模型集体“失智”了。9.11和9.9两个数字哪个更大?就此问题,第一财经记者测试了12个大模型。其中,国内外12个大模型之中只有4个答对了,剩下8个全都回答错误,且错法各有不同。
一道小学数学题难倒了一众海内外AI大模型,这在舆论场激起了不小涟漪。有人“惊掉下巴”,调侃“大模型集体翻车”;也有人质疑AI的能力边界,甚至上手测试了一番,结果发现答案对错都有,有些大模型能迅速“承认错误”,而有的则“一错到底”。
针对这一事件,业界给出了分析,总结起来有二。一是技术。大模型在分析文本时,通常会使用特定机制将文本拆分成更小的单元,然后再进行处理。打个比方,这就类似于将一句话拆成一个个词汇去理解。我们都知道,很多词语脱离特定语境,意思可能就变了,所以会有“断章取义”的误解。同理,大模型的这种拆分处理,显然不够严谨。
二是训练数据。现如今,大模型更多是以文本模型进行训练分析,在数理分析、逻辑推理上还有待优化,很多用户也感觉大模型“文科强理科弱”。对此,有媒体以今年高考数学题做测验,结果显示,参与测试的7个大模型全部“不及格”,最高分只有75分。由此看来,所谓大模型是“文科生”的说法,未必没有道理。
有道是“福祸相依”,此次事件不见得完全是坏事,至少提醒了我们两件事。头一件,大模型的短板要补上来。大模型回答数学问题“吃瘪”,暴露了其基础不够扎实。目前,依托庞大参数规模、强大算力资源等“外挂”,大模型作为人工智能领域最热门的技术分支,已在多个领域表现出“超高”水准。因而,业界也早早“走在前面”,锚定工业生产制造、金融计算等重要领域,布局新场景,落地新应用。基础不牢,地动山摇。如果连最基础的数学都搞不定,又如何去解决更复杂的现实问题?如何实现技术范式的颠覆性创新?显然,基础性研究和基本能力建设,已成为必须翻越的两座大山。
第二件,我们要学会对技术产物“祛魅”。AI大模型出道至今,一直顶着“能力担当”的头衔。帮学生写作业、为“打工人”敲总结……如此“博学多才”,以至于我们期待甚高、依赖过多,总觉得它“无所不能”。可事实上,不论是大模型,还是其他人工智能技术,虽然概念持续火热、产品琳琅满目,但大部分尚处在测试探索期,距离真正成熟、好用还有一定距离。所谓“祛魅”,就是保持“人间清醒”。既不过分迷信技术特质,也不盲目夸大技术功用,而是在客观判断和合理运用中,让技术应用成为我们的最佳“搭档”。(庹亚男)