ReasonFlux：通过分层模板缩放提升 LLM 推理

大型语言模型（LLMs）已经展现出了卓越的问题解决能力，然而，复杂的推理任务 —— 例如竞技级别的数学问题或复杂的代码生成 —— 仍然具有挑战性。这些任务需要精确地穿越庞大的解空间，并进行细致的逐步思考。现有的方法虽然在提高准确性方面有所改进，但往往面临着高计算成本、僵化的搜索策略以及难以跨不同问题进行泛化的难题。

https://www.marktechpost.com/2025/02/15/reasonflux-elevating-llm-reasoning-with-hierarchical-template-scaling/

在这篇论文中，研究人员介绍了一个新的框架，ReasonFlux，它通过重新构想 LLMs 如何使用分层、模板引导的策略来规划和执行推理步骤，从而解决了这些局限性。最近用于增强大型语言模型推理的方法分为两大类：深思熟虑的搜索和奖励引导的方法。像思维树（ToT）这样的技术使 LLM 能够探索多个推理路径，而蒙特卡洛树搜索（MCTS）则将问题分解为步骤，这些步骤由过程奖励模型（PRM）引导。

尽管这些方法有效，但由于采样过多和手动搜索设计，它们的可扩展性较差。例如，MCTS 需要遍历成千上万的潜在步骤，这使得它在实际应用中计算成本过高。与此同时，像思维缓冲（BoT）这样的检索增强生成 RAG 方法利用存储的问题解决模板，但在适应性地整合多个模板方面存在困难，这限制了它们在复杂场景中的效用。

ReasonFlux 引入了一个结构化的框架，该框架结合了精选的高层次思维模板库与分层强化学习（HRL），以动态规划和优化推理路径。它不是优化单个步骤，而是专注于配置最优的模板轨迹 —— 从结构化知识库中检索出的抽象问题解决策略序列。这种方法简化了搜索空间，并使高效适应子问题成为可能。该框架由三个主要组件组成：

结构化模板库：研究团队构建了一个包含 500 个思维模板的库，每个模板封装了一种问题解决策略（例如，“三角代换优化积分”）。模板包含元数据 —— 名称、标签、描述和应用步骤 —— 以实现高效的检索。例如，一个标记为 “有理函数优化” 的模板可能会指导大型语言模型（LLM）应用特定的代数替换。
分层强化学习：
- 基于结构的微调：将基本 LLM（例如，Qwen2.5-32B）微调以将模板元数据与其功能描述关联起来，确保它理解何时以及如何应用每个模板。
- 模板轨迹优化：利用偏好学习，该模型学会根据效果对模板序列进行排序。对于给定的问题，会采样多个轨迹，并根据它们在类似问题上的成功率来确定奖励。这训练模型优先考虑高奖励序列，从而提高其规划能力。
自适应推理缩放：在推理过程中，ReasonFlux 充当 “导航员”，分析问题以检索相关模板，并根据中间结果动态调整轨迹。例如，如果一个涉及 “多项式因式分解” 的步骤产生了意外的约束，系统可能会转向 “约束传播” 模板。这种规划和执行之间的迭代互动反映了人类的解决问题方式，其中部分解决方案会指导后续步骤。

ReasonFlux 在 MATH、AIME 和 OlympiadBench 等竞争级基准测试中进行了评估，超越了前沿模型（GPT-4o、Claude）以及专业开源模型（DeepSeek-V3、Mathstral）。关键结果包括：

MATH 准确率达到 91.2%，超过 OpenAI 的 o1-preview 6.7%。
AIME 2024 准确率为 56.7%，超出 DeepSeek-V3 45%，与 o1-mini 相当。
OlympiadBench 准确率为 63.3%，比先前方法提高了 14%。此外，结构化模板库展示了强大的泛化能力：当应用于不同的问题时，它将小型模型（例如，7B 参数）的能力提升至能够通过直接推理超越大型模型。此外，ReasonFlux 实现了更好的探索 - 利用平衡，在复杂任务上比 MCTS 和 Best-of-N 需要少 40% 的计算步骤（见图 5）。总结来说，ReasonFlux 重新定义了 LLMs 处理复杂推理的方式，通过将高级策略与逐步执行解耦。其分层模板系统减少了计算开销，同时提高了准确性和适应性，解决了现有方法中的关键差距。通过利用结构化知识和动态规划，该框架为高效、可扩展的推理设定了新的标准 —— 证明即使是小型、有良好指导的模型也能与最大的前沿系统相媲美。这一创新为在资源受限的环境中部署高级推理开辟了道路，从教育到自动化代码生成。

作者：Jeebiz 创建时间：2025-02-21 14:29
最后编辑：Jeebiz 更新时间：2025-11-11 17:29