治白癜风的医院 https://wapjbk.39.net/yiyuanfengcai/tsyl_bjzkbdfyy/
夕小瑶科技说原创作者
付奶茶、王二狗
最近多模态大模型的研究取得了巨大的进展。然而,这些模型在生成时存在着文本与图像不一致的问题,这个问题就是一直困扰研究者们的“幻觉难题”。
▲给定一幅图像,MLLM会输出的回应,包括了物体层面和属性层面的幻觉。
为了缓解这个问题,中科大开发了一种名为Woodpecker(啄木鸟)的新方法。这个方法可以从生成的文本中挑选出幻觉并进行纠正。具体来说,直接从模型给出的错误文本下手,“倒推”出可能出现“幻觉”之处,然后与图片确定事实,最终直接完成修正。
一句话总结就是:哪里出现问题就啄哪里~
▲给定MLLM的一个回应,Woodpecker会校正被幻觉的部分并整合基础信息以便于验证。
Woodpecker包括五个阶段:
关键概念提取;问题制定;视觉知识验证;视觉声明生成;幻觉校正。啄木鸟框架具备轻松适用于各种多模态大型模型的能力,并且通过访问五个不同阶段的中间输出来提供解释。通过实验,可以清晰地观察到,在多个不同的模型(LLaV,mPLUG-Owl,MiniGPT-4,Otter)的评估中,准确率都表现出了不同程度的增长。
特别一提的是,MiniGPT-4和mPLUG-Owl模型分别实现了惊人的30.66%和24.33%的提升!
接下来,让我们一同深入探讨它们取得这一成绩的秘诀~
论文标题:《Woodpecker:HallucinationCorrectionforMultimodalLargeLanguageModels》
论文链接: