Стартап из 6 человек с $500k только что превзошел Microsoft! MLE-Bench от OpenAI — это бенчмарк, который тестирует агентов на задачах в области машинного обучения. NEO @withneo, первый автономный MLE-агент, набрал 34.2% против 22.4% у Microsoft в этом бенчмарке. Это огромно!
5,61K