Curator

Introducing SWE-bench Verified

来自 OpenAI News · 2024-08-13 精选

模型评测 AI工程化 AI开发工具

We’re releasing a human-validated subset of SWE-bench that more reliably evaluates AI models’ ability to solve real-world software issues.