夕小瑶科技说原创作者

付奶茶、王二狗

最近多模态大模型的研究取得了巨大的进展。然而，这些模型在生成时存在着文本与图像不一致的问题，这个问题就是一直困扰研究者们的“幻觉难题”。

▲给定一幅图像，MLLM会输出的回应，包括了物体层面和属性层面的幻觉。

为了缓解这个问题，中科大开发了一种名为Woodpecker（啄木鸟）的新方法。这个方法可以从生成的文本中挑选出幻觉并进行纠正。具体来说，直接从模型给出的错误文本下手，“倒推”出可能出现“幻觉”之处，然后与图片确定事实，最终直接完成修正。

一句话总结就是：哪里出现问题就啄哪里～

▲给定MLLM的一个回应，Woodpecker会校正被幻觉的部分并整合基础信息以便于验证。

Woodpecker包括五个阶段：

关键概念提取；问题制定；视觉知识验证；视觉声明生成；幻觉校正。

啄木鸟框架具备轻松适用于各种多模态大型模型的能力，并且通过访问五个不同阶段的中间输出来提供解释。通过实验，可以清晰地观察到，在多个不同的模型（LLaV，mPLUG-Owl，MiniGPT-4，Otter）的评估中，准确率都表现出了不同程度的增长。

特别一提的是，MiniGPT-4和mPLUG-Owl模型分别实现了惊人的30.66%和24.33%的提升！

接下来，让我们一同深入探讨它们取得这一成绩的秘诀～

论文标题：《Woodpecker:HallucinationCorrectionforMultimodalLargeLanguageModels》

论文链接：

当前时间：

解决多模态大模型幻觉问题的秘密武器啄木