内容总结
斯坦福大学和华盛顿大学的研究团队联合推出了名为S1的突破性AI训练方法。该方法通过极简的测试时缩放技术,结合精心构建的s1K小型高质量推理问题数据集,实现了语言模型推理能力的显著提升。实验显示,s1-32B模型在竞赛级数学问题上的表现超越了OpenAI的o1-preview模型。此外,通过“预算强制”技术控制测试时计算量,模型展现出超出训练水平的泛化能力。
该研究的核心贡献在于提供了一套高效创建高推理能力数据集并实现测试时性能缩放的方法。代码、模型和数据已在GitHub开源,为AI训练领域带来了低成本、高效益的新思路,为更广泛的AI应用奠定了坚实基础。