El último blog de Nous sobre la eficiencia de adelgazamiento en diferentes modelos fue citado solo dos días después de su publicación 🤗 Consulta ese blog aquí:
Jason Weston
Jason Weston19 ago, 10:15
🤖Presentamos OptimalThinkingBench 🤖 📝: - Los LLMs que piensan utilizan muchos tokens y piensan en exceso; los LLMs que no piensan piensan poco y rinden por debajo de lo esperado. - Introducimos un benchmark que puntúa modelos en la búsqueda de la mejor combinación. - OptimalThinkingBench informa la puntuación F1 combinando OverThinkingBench (consultas simples en 72 dominios) y UnderThinkingBench (11 tareas de razonamiento desafiantes). - Evaluamos 33 modelos SOTA diferentes y encontramos que se necesitan mejoras! 🧵1/5
8,67K