Verifiers 开源 -微调训练大模型，从零开始搭建环境、编写训练逻辑

2025-08-26
阅读：491

Verifiers是一个模块化组件库，用于创建RL环境和训练LLM代理。Verifiers包括一个围绕transformers Trainer构建的RSPO实现，由prime-rl支持，用于大规模FSDP训练，并且可以轻松集成到任何暴露OpenAI兼容推理客户端的RL框架中。除了RL训练之外，Verifiers还可以直接用于构建LLM评估，创建合成数据管道和实现代理工具。

支持单轮、多轮甚至工具调用的各种场景，还能无缝接入 OpenAI 接口、vLLM 等推理服务。

主要功能：

- 模块化环境组件，支持单轮、多轮和工具调用场景
- 内置异步 GRPO 训练器，优化 2-16 GPU 训练效率
- 灵活的数据集和评估系统，支持自定义奖励函数
- 完整的 LLM 评估框架，可直接用于构建测试管道
- 支持 vLLM 推理服务和完整 SamplingParams 参数控制
- 丰富的解析器和评分标准，简化复杂任务处理

安装方式也非常简单，通过 uv 包管理器安装即可使用，适合研究 LLM 强化学习的 AI 开发者。

查看安装部署Verifiers模块化组件库

部分评论 👉写评论

部分评论