ExAct教 AI agents进行探索反思性 MCTS 和探索性学习

Abstract 抽象

自主代理在自动化复杂的多步骤决策任务方面显示出巨大的潜力。然而，即使是最先进的视觉语言模型（VLM），例如 GPT-4o，仍然达不到人类水平的性能，特别是在复杂的网络环境和长期任务中。为了解决这些限制，我们提出了 ExAct，这是一种将测试时搜索和自学习相结合的方法，用于为代理应用程序构建类似 o1 的模型。我们首先介绍了反射蒙特卡洛树搜索（R-MCTS），这是一种新颖的测试时间算法，旨在增强 AI 代理动态探索决策空间的能力。

R-MCTS 通过 1）结合对比反射进行传统 MCTS 的扩展，使代理能够从过去的交互中学习并动态提高他们的搜索效率;2）使用多代理辩论来提供可靠的状态评估。接下来，我们介绍探索性学习，这是一种新颖的学习策略，可以教代理在推理时进行搜索，而无需依赖任何外部搜索算法。在具有挑战性的 VisualWebArena 基准测试中，与之前的最先进相比，我们基于 GPT-4o 的 R-MCTS 代理在各种任务中实现了 6% 到 30% 的相对改进。

此外，我们还表明，通过微调，从测试时搜索中获得的知识和经验可以有效地转移回 GPT-4o。经过探索性学习后，GPT-4o 1）展示了探索环境、评估状态并在检测到当前状态无法导致成功时回溯到可行状态的能力，以及 2）与 R-MCTS 性能的 87% 相匹配，同时使用明显更少的计算。值得注意的是，我们的工作展示了训练（使用 R-MCTS 收集数据）和测试时间中的计算扩展属性。这些结果为通过测试时搜索和自学习增强 VLMs 对代理应用的推理和规划能力提出了一个有前途的研究方向。