Curator

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

来自 OpenAI News · 2024-10-10 精选

模型评测 AI Agent Agent框架

We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering.