大语言模型(Large Language Model)中的“幻觉”现象指的是模型生成的内容虽然看似合理,但实际存在事实错误;或者AI生成的文字、图片、视频在直觉上不符合人类认知,欠缺真实感。“幻觉”主要有逻辑谬误、捏造事实、数据偏见三类。通常是因为模型的推理能力欠缺,算法框架存在漏洞,数据压缩、数据不一致性等原因导致。
业内解决“幻觉”问题的方式是采用RAG技术,(Retrieval-Augmented Generation)即检索增强生成,通过结合阶段和增强生成,减少学习数据中的“负样本”,以此来减少大模型的幻觉现象。但这也仅限于在LLM领域。在多模态领域,百度开发了基于图像的iRAG(Image based RAG)技术,将搜索引擎的亿级图片资源与文心基础模型能力进行结合,在强化学习生成下,输出各种真实的图片,整体效果远超传统的“文生图”的原生系统,有效的消除了“AI味”。未来,以iRAG技术为代表多模态RAG将成为业内缓解AI“幻觉”现象的主要方向,为更成熟、更真实的多模态应用发展提供更准确的能力。