米兰体育官方网站雷军官宣小米多篇最新研究成果成功入选 ICLR 2026 国际顶级会议

发布日期：2026-02-03 13:05 点击次数：57

IT之家2月3日消息，小米创办人、董事长兼CEO雷军今日宣布，小米团队的多篇最新研究成果，成功入选ICLR2026，研究方向涵盖多模态推理、强化学习、GUIAgent、端到端自动驾驶以及音频生成等领域。

IT之家注：ICLR（国际学习表征会议，全称是InternationalConferenceonLearningRepresentations）是人工智能领域国际顶级会议之一，由图灵奖得主YoshuaBengio和YannLeCun于2013年创立的深度学习领域学术会议，致力推动人工智能理论与方法的前沿研究与创新发展。

小米本次入选国际顶级会议ICLR2026的研究成果如下：

《Shuffle-R1:EfficientRLframeworkforMultimodalLargeLanguageModelsviaData-centricDynamicShuffle》

论文作者：朱泠皞，管一然，梁定康，鞠建忠，罗振波，秦斌，栾剑，刘禹良，白翔

论文链接：https://arxiv.org/abs/2508.05612

项目链接：https://github.com/xiaomi-research/shuffle-r1

强化学习已成为提升多模态语言模型推理能力的重要后训练范式。然而，现有的强化学习训练流程在训练中仍面临效率低下的问题，其根源在于两个长期被忽视的关键现象：优势坍缩（AdvantageCollapsing）。即一个批次中的大多数优势值集中在零附近，导致导致有效梯度信号不足；以及轨迹沉默（RolloutSilencing），即能够产生非零梯度的采样轨迹数量随着训练进行不断减少，进一步削弱了学习效率。这些问题使得模型的梯度更新受限，严重制约了模型的长期优化能力。

针对上述挑战，本文提出了Shuffle-R1，这是一个简洁高效的强化学习框架，通过数据层面的动态重组显著提升强化学习的训练效率。Shuffle-R1包含两项核心设计：（1）成对轨迹采样（PairwiseTrajectorySampling），该方法选择具有大优势值的高对比度轨迹，以提高梯度信号质量；（2）基于优势的批次重排序（Advantage-basedBatchShuffle），通过精心设计的批次重排序算法重塑了训练批次的数据分布，以此来增加更有价值轨迹的曝光率。

在多个多模态推理基准上的实验结果表明，Shuffle-R1在增加极少计算开销的前提下，稳定超越多种强化学习基线。这些结果验证了：以数据为中心的自适应动态算法，在提升多模态大模型强化学习效率方面极具潜力。

《MobileIPL:EnhancingMobileAgentsThinkingProcessviaIterativePreferenceLearning》

{jz:field.toptypename/}

*表示共同第一作者

论文作者：黄琨*，徐伟恺*，刘宇轩，王全东，高鹏至，刘伟，栾剑，王斌，安波

MobileGUIAgent引入CoaT（ChainofAction-PlanningThoughts）虽然显著增强了推理与规划能力，但在真实落地中仍面临两大核心瓶颈：其一，高质量且多样化的CoaT轨迹极其稀缺，导致模型难以获得稳定、可泛化的“思考样本”；其二，现有self-training往往仅以最终结果作为监督信号，难以对中间推理步骤进行细粒度约束与纠偏，而引入人工过程标注或PRM（ProcessRewardModel）又成本过高、难以规模化。

为此，我们提出MobileIPL（IterativePreferenceLearning）框架，以更高效、可扩展的方式实现过程监督：（1）Thinking-levelDPO（T-DPO）：通过迭代采样构建CoaT-tree，对叶子节点进行rule-basedreward评分，并结合反向归因将稀疏的“结果信号”精确回传至中间思考步骤，从而自动构造高质量偏好对，持续优化模型的思考过程与探索策略；（2）InstructionEvolution：引入三阶段指令演化机制（生成+过滤），有效扩展任务分布，显著缓解warm-upSFT过拟合，系统性提升Agent的UI理解能力与数据多样性。

实验表明，MobileIPL在AITZ、AMEX、AndroidControl等主流GUI-Agent基准上取得SOTA，并在OOD（分布外）场景中展现出更强的泛化鲁棒性与稳定性。

《FutureMind:EquippingSmallLanguageModelswithStrategicThinking-PatternPriorsviaAdaptiveKnowledgeDistillation》

论文作者：杨少雄，李骏霆，张梦愿，李超，刘伟，栾剑

在实际业务中，小语言模型（SLMs）因其低成本、低时延优势，被广泛应用于智能问答、知识检索等场景。然而，面对多跳推理和复杂检索等高难度任务，SLMs常因缺乏结构化推理流程与系统级检索策略而性能受限。为解决这一瓶颈，我们提出了FutureMind，一种无需额外训练和参数增量的模块化推理框架，专注于为学生模型注入可复用的“战略性思维模式”。

FutureMind通过自适应知识蒸馏，从大型语言模型（LLMs）中提炼出高级认知能力，包括问题分析、条件排序、策略规划及检索决策等思维先验，构建了由问题分析、逻辑推理、策略规划与检索指导模块组成的动态推理流水线。该流水线辅以三种不同的检索范式（前向、反向及并行检索策略），有效拆解复杂查询，显著减少无效调用和冗余检索，极大提升了推理效率与检索准确率。

在多跳问答基准测试上，我们进行了大量实验，结果显示FutureMind表现卓越，超越了如Search-o1等多项强基线模型。在不同模型架构和规模下，FutureMind均在无需额外训练的前提下实现了SOTA水平。进一步分析发现，思维模式蒸馏仍受教师模型与学生模型认知偏差的瓶颈限制，该发现为推理能力迁移提供了全新视角，也为构建兼具高效性与真正认知能力的轻量级语言模型指明了未来方向。

《ThinkOmni:LiftingTextualReasoningtoOmni-modalScenariosviaGuidanceDecoding》

论文作者：管一然，开云app官方最新下载涂思凡，梁定康，朱泠皞，鞠建忠，罗振波，栾剑，刘禹良，白翔

全模态推理，是智能系统从理论解题到现实应用的关键一步，但在现有技术路径中常面临两大瓶颈：一是现有的全模态大模型虽擅长感知多样化模态，却缺乏类似推理大模型的复杂逻辑推理能力，出现“感知强、推理弱”的偏科现象；二是通过额外训练来提升推理能力门槛极高，面临高质量数据稀缺、特定任务适配困难以及高昂计算成本的挑战。

为了应对上述挑战，本文提出Training-free的ThinkOmni框架，旨在将成熟的文本推理能力“零成本迁移”至全模态场景，为具备感知能力的模型外接一个“最强大脑”进行实时指导，不再依赖昂贵的模型微调和数据收集，通过策略引导实现能力的跃升。

该框架包含两大核心组件：LRM-as-a-Guide（利用现成的推理大模型来指导OLLM的解码过程，实现“借智推理”）、StepwiseContrastiveScaling（自适应地平衡感知信号与推理信号），实现“感知基础与推理深度的动态平衡”。ThinkOmni在六个多模态推理基准上均展现出一致的性能提升，为推理能力的泛化应用提供了全新思路。

《SMAN-Bench:ACross-SystemBenchmarkforMobileAgentsunderSingle-andMulti-path，Ambiguous，andNoisyTasks》

*表示共同第一作者

论文作者：徐伟恺*，蒋志政*，刘宇轩，高鹏至，刘伟，栾剑，刘云新，李元春，王斌，安波

项目链接：https://github.com/gezelligheid0314/Mobile-Bench-v2

数据连接：https://huggingface.co/datasets/xwk123/MobileBench-v2

针对现有VLM-based移动Agent评测中存在的“在线环境不稳定”与“离线轨迹过于单一”的二元对立难题，本文正式推出SMAN-Bench——一个基于大规模图结构语料Mobile3M构建的跨系统、多维度移动Agent评估基准。

基于大规模图结构语料Mobile3M，SMAN-Bench首创了基于槽位的指令生成方法（GIAS），不仅实现了离线环境下的多路径奖励精确评估，更通过引入真实广告噪声与交互式模糊指令，构建了高保真的移动操作模拟环境。

作为连接静态数据集与真实动态场景的桥梁，SMAN-Bench为量化评估多模态大模型在复杂长程任务中的规划能力、抗干扰鲁棒性及主动交互智能提供了严谨且通用的实验平台。

《Flow2GAN:HybridFlowMatchingandGANwithMulti-ResolutionNetworkforFew-stepHigh-FidelityAudioGeneration》

论文作者：姚增伟，康魏，朱涵，郭理勇，米兰叶凌轩，匡方军，庄伟基，李肇庆，韩志峰，林珑，DanielPovey

现有主流的音频生成方法主要包括生成对抗网络(GAN)以及基于扩散的生成方法(如FlowMatching)。其中，GAN在训练过程中往往存在收敛缓慢的问题，而扩散类方法在推理阶段通常需要多步采样，带来较大的计算开销。

在本文中，我们提出Flow2GAN，一种两阶段的音频生成框架：首先利用FlowMatching预训练以学习强大的生成能力，随后通过轻量GAN微调实现高效的少步乃至单步推理。针对音频信号的独特性质，我们对FlowMatching进行了专门的改进，具体包括：（1）将原始目标函数重构为端点估计(endpointestimation)，从而避免在空能量区域进行速度场估计的优化困难；（2）引入基于谱能量的损失缩放策略，以强化对感知上更为重要的低能量(较安静)区域的建模。

在上述FlowMatching改进的基础上，我们进一步引入轻量级的GAN微调阶段，使模型能够成为单步生成器，并在保持高效推理的同时生成高质量音频。此外，我们设计了一种多分支网络结构，在不同时间–频率分辨率下对傅里叶系数进行建模，相比以往的单分辨率设计提升了模型的音频建模能力。实验结果表明，Flow2GAN能够从Mel频谱或离散音频token中生成高保真音频，在生成质量与计算效率的权衡上优于现有最先进的GAN及FlowMatching方法。

《ReCogDrive:AReinforcedCognitiveFrameworkforEnd-to-EndAutonomousDriving》

*表示共同第一作者

论文作者：李永康*，熊凯昕*，郭翔宇，李方，鄢思旭，许刚伟，周丽君，陈龙，孙海洋，王兵，马昆，陈光，叶航军，刘文予，王兴刚

论文链接：https://arxiv.org/abs/2506.08052

代码链接：https://github.com/xiaomi-research/recogdrive

端到端自动驾驶通过从感知输入中生成车辆轨迹，在提升系统整体效率与安全性方面具有重要潜力。近年来，视觉语言模型（VLM）因其丰富的世界知识和推理能力，被引入自动驾驶以缓解在长尾场景下的泛化问题，但现有方法多将轨迹规划建模为语言生成任务，在离散语言空间中输出动作，容易导致物理不可行轨迹、格式错误以及推理效率低下等问题，同时单纯依赖模仿学习也难以获得安全且鲁棒的驾驶策略。

为此，本文提出ReCogDrive，一种用于端到端自动驾驶的强化认知框架，通过融合视觉语言模型、扩散式轨迹规划与强化学习，实现驾驶理解与规划的统一建模。该方法首先通过分层认知数据流水线为VLM注入人类驾驶认知先验，随后利用认知引导的扩散规划器将高层语义映射到连续动作空间，生成稳定、可执行的驾驶轨迹，并进一步通过DiffGRPO强化学习在仿真环境中直接优化安全性与舒适性。

在NAVSIM与Bench2Drive等基准上的实验结果表明，ReCogDrive在开环与闭环评测中均取得了显著优于现有方法的性能，验证了强化认知框架在端到端自动驾驶中的有效性。

《WorldSplat:Gaussian-CentricFeed-Forward4DSceneGenerationforAutonomousDriving》

论文作者：朱子悦，吴展骞，朱贞欣，周丽君，孙海洋，王兵，马昆，陈光，叶航军，谢晋，杨健

自动驾驶场景生成与重建技术通过生成可扩展、可控的训练数据，在增强自动驾驶系统的可靠性和安全性等方面具有巨大潜力。现有生成方法主要聚焦于合成多样、高保真的驾驶视频，但由于这些视频的3D一致性有限、视角稀疏，难以有效支持新视角合成（NVS）任务。

相比之下，3D/4D重建方法具有较强的NVS性能表现，但缺乏生成能力。为解决场景生成与重建之间的不足，我们提出WorldSplat，一种用于4D驾驶场景生成的前向（feed-forward）框架。

我们的方法通过两个关键步骤有效地生成具有3D一致性的多轨迹视频：（1）提出一个融合多模态信息的4D-aware扩散模型，以前向方式生成像素对齐的4DGaussians；（2）利用增强的videodiffusionmodel对由这些Gaussians渲染得到的新视角视频进行细化。在多个基准数据集上的大量实验表明，WorldSplat能够高质量地生成具有时、空间一致性的多轨迹新视角驾驶视频。

《RethinkingDrivingWorldModelasSyntheticDataGeneratorforPerceptionTasks》

*表示共同第一作者

论文作者：曾凯*，吴展骞*，熊凯昕，韦小宝，郭翔宇，朱贞欣，何嘉乐，周丽君，曾博涵，陆鸣，孙海洋，王兵，陈光，叶航军，张文涛

论文链接：https://arxiv.org/abs/2510.19195

本文提出Dream4Drive框架，重新审视自动驾驶世界模型在下游感知任务中的应用价值，打破“合成数据越多越好”的固有认知与传统方法依赖“刷epoch”的训练困境。通过3D感知引导图分解、3D资产编辑与世界模型渲染的核心流程，实现对目标位姿、轨迹和外观的精准控制，生成多视角一致、照片级真实感的驾驶视频，同时配套构建大规模3D资产数据集DriveObj3D。

实验表明，在训练轮次严格对齐的前提下，仅使用不足真实数据量2%的420个高质量合成样本，训练出的感知模型性能便超越纯真实数据训练的基线模型，首次明确验证了高质量合成数据而非数据规模或训练轮次，是提升自动驾驶感知性能的关键驱动力，为缓解真实数据稀缺、突破感知任务瓶颈提供了全新解决方案。

《DichotomousDiffusionPolicyOptimization》

*表示共同第一作者

论文作者：梁睿鸣*，郑一楠*，郑可馨*，谭添一*，李健雄，毛力源，王志豪，陈光，叶航军，刘菁菁，王金桥，詹仙园

基于扩散模型的策略因其强表达能力和推理阶段的可控生成，在决策任务中受到广泛关注，但利用强化学习稳定训练大规模扩散策略仍具挑战。现有方法要么直接优化价值目标导致训练不稳定，要么依赖粗糙的高斯似然近似，计算开销大且需要大量去噪步数。

本文提出一种稳定且可控的扩散策略优化算法DIPOLE（DichotomousDiffusionPolicyImprovement）。通过重新审视KL正则化强化学习目标，我们提出贪婪化策略正则化，将最优策略分解为奖励最大化与最小化的二分策略。推理时通过线性组合两者的概率分数生成动作，从而灵活控制策略贪婪性。

实验表明，DIPOLE不仅在ExORL、OGBench上取得显著提升，还在参数规模达10亿的VLA模型上成功验证，而且在真实世界自动驾驶基准NAVSIM中展现出良好性能。

米兰体育官方网站雷军官宣小米多篇最新研究成果成功入选 ICLR 2026 国际顶级会议

热点资讯

推荐资讯

米兰体育官方网站 雷军官宣小米多篇最新研究成果成功入选 ICLR 2026 国际顶级会议

热点资讯

推荐资讯

米兰体育官方网站雷军官宣小米多篇最新研究成果成功入选 ICLR 2026 国际顶级会议