Uma startup de 6 pessoas com US$ 500 mil acaba de superar a Microsoft! O MLE-Bench da OpenAI é um benchmark que testa os agentes em tarefas de engenharia de aprendizado de máquina. O NEO @withneo, o primeiro agente autônomo do MLE, marcou 34,2% contra 22,4% da Microsoft no benchmark. Isso é enorme!
5,67K