解决多模态大模型幻觉问题的秘密武器啄木

夕小瑶科技说原创作者

付奶茶、王二狗

最近多模态大模型的研究取得了巨大的进展。然而,这些模型在生成时存在着文本与图像不一致的问题,这个问题就是一直困扰研究者们的“幻觉难题”。

▲给定一幅图像,MLLM会输出的回应,包括了物体层面和属性层面的幻觉。

为了缓解这个问题,中科大开发了一种名为Woodpecker(啄木鸟)的新方法。这个方法可以从生成的文本中挑选出幻觉并进行纠正。具体来说,直接从模型给出的错误文本下手,“倒推”出可能出现“幻觉”之处,然后与图片确定事实,最终直接完成修正。

一句话总结就是:哪里出现问题就啄哪里~

▲给定MLLM的一个回应,Woodpecker会校正被幻觉的部分并整合基础信息以便于验证。

Woodpecker包括五个阶段:

关键概念提取;问题制定;视觉知识验证;视觉声明生成;幻觉校正。

啄木鸟框架具备轻松适用于各种多模态大型模型的能力,并且通过访问五个不同阶段的中间输出来提供解释。通过实验,可以清晰地观察到,在多个不同的模型(LLaV,mPLUG-Owl,MiniGPT-4,Otter)的评估中,准确率都表现出了不同程度的增长。

特别一提的是,MiniGPT-4和mPLUG-Owl模型分别实现了惊人的30.66%和24.33%的提升!

接下来,让我们一同深入探讨它们取得这一成绩的秘诀~

论文标题:《Woodpecker:HallucinationCorrectionforMultimodalLargeLanguageModels》

论文链接:


转载请注明:http://www.jilinjksz.com/afhhy/6054.html


当前时间:

冀ICP备19035881号-17