识别高分低能,综合性视觉语言理解新基准,五项挑战评估多模态模型的推理能力
2025-02-27
JourneyBench团队提出了一种新的综合性视觉语言理解基准,通过五项挑战性任务评估多模态模型的推理能力,包括多模态链式数学推理、多图像视觉问答、细粒度跨模态检索、包含幻觉触发的开放式视觉问答和非常见图像描述。该基准旨在解决现有基准数据同质化、场景复杂性不足的问题,利用基于diffusion模型生成的图像提高测试难度。研究发现,现有模型在处理非常见场景和细粒度跨模态推理时表现不佳,尤其在幻觉问题上存在显著不足。
舆情等级
重要
舆情评分
中性舆情
舆情解析
点击查看舆情源网页

重要提示和声明
本页面内容由AI提炼生成,无法确保完全真实准确,不代表123彩票app稳定版下载
官方立场,不构成投资建议。如需详细阅读有关
请点击此处
