Verifiers 开源 -微调训练大模型,从零开始搭建环境、编写训练逻辑
- 2025-08-26
- 阅读:123
Verifiers是一个模块化组件库,用于创建RL环境和训练LLM代理。Verifiers包括一个围绕transformers Trainer构建的RSPO实现,由prime-rl支持,用于大规模FSDP训练,并且可以轻松集成到任何暴露OpenAI兼容推理客户端的RL框架中。除了RL训练之外,Verifiers还可以直接用于构建LLM评估,创建合成数据管道和实现代理工具。
支持单轮、多轮甚至工具调用的各种场景,还能无缝接入 OpenAI 接口、vLLM 等推理服务。
主要功能:
- 模块化环境组件,支持单轮、多轮和工具调用场景
- 内置异步 GRPO 训练器,优化 2-16 GPU 训练效率
- 灵活的数据集和评估系统,支持自定义奖励函数
- 完整的 LLM 评估框架,可直接用于构建测试管道
- 支持 vLLM 推理服务和完整 SamplingParams 参数控制
- 丰富的解析器和评分标准,简化复杂任务处理
安装方式也非常简单,通过 uv 包管理器安装即可使用,适合研究 LLM 强化学习的 AI 开发者。

部分评论