VisPlay,一个自我进化的虚拟现实框架,无需标记图像,解决视觉推理问题

视觉语言模型领域通常依赖于昂贵的数据手动注释和奖励启发法来提高其复杂的推理能力。这不仅成本高昂,而且难以扩展。最新的工作VisPlay首次提出了一种自我进化的强化学习框架,允许VLM仅通过大量未标记的图像数据进行自我进化并提高其能力。 VisPlay 将基本的 VLM 分解为两个角色:“询问者”和“推理者”。这些通过迭代自我进化机制共同进化,该机制将 GRPO 算法与创新的多样性/难度奖励相结合,以平衡问题复杂性和答案质量。标题:VisPlay:自进化视觉和语言模型,来自 ImagesPaper:https://arxiv.org/abs/2511.15661 Github:https://github.com/bruno686/VisPlay 实验表明,VisPlay 可以与 Qwen2.5-VL 和 MiMo-VL 配合使用。其他传统模型展示了新的低成本、可扩展的模式多模态智能的进化之路,特别是视觉推理、组合泛化和幻觉缓解。简介:VLM推理能力的“数据困境”。尽管视觉语言模型(VLM)近年来在感知任务中取得了长足的进步,但它们仍然难以处理更复杂的视觉推理。传统的改进方法,如指令调优(SFT)和强化学习(RL),无法避免依赖高质量标注数据的核心问题。强化学习尤其需要准确且可验证的奖励信号,通常需要耗时和劳动密集型的手动注释以及为特定任务设计的复杂规则。随着模型规模越来越大,人工标注的成本和速度逐渐不能满足模型演化的需要,这也成为进一步完善功能的主要瓶颈。在此背景下,研究人员正在开始尝试“自我进化”的想法。这允许模型自行生成。通过自我开发、自我修改、不断学习自身经验,可以实现功能的自主迭代。 VisPlay:一个基于自我进化的自我进化框架。为了解决上述挑战,来自伊利诺伊大学厄巴纳-香槟分校、华盛顿大学圣路易斯分校、马里兰大学和新加坡国立大学的研究团队提出的VisPlay框架首先将自进化强化学习应用于VLM,实现了完全基于未标记图像的自主学习。 VisPlay的核心理念是自我进化。我们从预先训练的基本 VLM 开始,并将其分解为在训练过程中相互作用的两个角色。图像条件询问器负责根据输入图像生成具有挑战性但可回答的视觉问题。具体来说,维Play设计了精致的难度奖励和多样性奖励的奖励机制来引导自我进化的质量。第一个鼓励提问者提出更复杂的问题,需要深入推理才能解决。后者产生的问题类型和相关知识点足够广泛,可以防止模型陷入狭窄的知识和推理路径,并获得更强的组合泛化能力。通过这种奖励机制,VisPlay有效解决了自进化模型中“回答质量差”和“大量重复问题”等常见问题,真正实现了从量变到质变的能力飞跃。多模态推理器负责根据照片和提问者的问题生成“银响应”(伪注释响应)。这里我们使用响应准确性作为训练信号。实验结果:综合功能预览搜索团队将VisPlay应用于包括Qwen2.5-VL和MiMo-VL在内的多个主流VLM模型系列,并对涵盖一般视觉理解(例如MM-Vet)、跨模态推理(例如MMMU)、视觉数学推理(例如MathVerse)和幻觉检测(HallusionBench)的八个主要基准数据集进行了广泛的评估。主要发现:一致且稳定的性能改进:VisPlay我们在所有模型和基准测试中实现了一致且显着的准确性改进,证明了我们框架的通用性和有效性。强大的组合泛化能力:模型对训练中未见的复杂推理组合表现出优异的鲁棒性。有效抑制“幻觉”:VisPlay通过自动进化生成高质量的问答对。这有效地帮助模型识别和纠正错误的视觉语言关联,并显着降低了 m 的可能性。odel 产生“幻觉”,这是影响 VLM 的一个主要问题。 VisPlay的成功证明了持续改进仅基于大规模非结构化图像的VLM推理能力的可能性,并为未来发展更加智能和自主的多模态系统指明了道路。
特别说明:e以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号社交网络用户上传并发布。 l 是媒体平台,仅提供信息存储服务。

此条目发表在吃瓜热门分类目录。将固定链接加入收藏夹。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注