Oggi annunciamo un'anteprima di ARC-AGI-3, il Benchmark di Ragionamento Interattivo con il divario più ampio tra facile per gli esseri umani e difficile per l'IA. Stiamo rilasciando: * 3 giochi (ambienti) * concorso per agenti da $10K * API per agenti IA Punteggi iniziali - IA di Frontiera: 0%, Umani: 100%
o3 (sinistra) e Grok 4 (destra) riproduzioni qui sotto spoiler: nessuno completa un singolo livello
I giochi di anteprima ARC-AGI-3 devono essere sottoposti a test di pressione. Stiamo organizzando un concorso per agenti di 30 giorni in collaborazione con @huggingface Stiamo invitando la comunità a creare agenti (e vincere denaro!)
297,43K