当前的大语言模型(LLM),如ChatGPT在语言处理方面表现惊人,常常给人一种“拟人”的错觉。但是,由于缺乏具身的体验,它们对世界的“理解”与人类存在本质差异。近日,据一项《自然·人类行为》(Nature Human Behaviour)上的研究,科学家系统评估了LLM和人类对4442个概念词的评分,发现对于与感官和运动体验等高度相关的概念词,LLM的理解能力不及人类。
科学家采用心理学评估框架:格拉斯哥规范和兰开斯特规范,对比了829名人类与OpenAI(GPT-3.5 和GPT-4)和Google(PaLM 和Gemini)的LLM在概念词表征上的差异。这些框架要求人类和LLM对概念词在多个维度上进行评分,如感官体验、运动、情感唤起、可想象性等。对比发现,LLM在抽象概念的表征上与人类高度一致,但在面对需要整合多个感官体验的概念词时(如花朵的概念整合了其香气、颜色、花瓣触感等多个体验),LLM的表现不及人类。值得注意的是,结合图像训练的LLM在视觉相关概念上表现更优,表明多模态训练可能改善这一局限。(OHIO STATE UNIVERSITY)