En Box, pasamos mucho tiempo probando Box AI con nuevos modelos en datos no estructurados para ver en qué se desempeñan bien en áreas reales de trabajo del conocimiento. Como hemos visto en los benchmarks, GPT-5 ofrece un salto significativo en capacidad sobre GPT-4.1 en razonamiento, matemáticas, lógica, codificación y otras áreas de trabajo. Aquí hay algunos ejemplos de dónde se aplican esas mejoras en el mundo real: *GPT 5 contextualiza mejor la información. Al hacer extracción de datos como el monto final en USD de una factura sin etiquetas de moneda pero con una dirección en Londres, GPT 5 responde correctamente que necesita una tasa de conversión de USD a GBP. En comparación, GPT 4.1 vio la factura final y la devolvió, asumiendo la moneda (incorrectamente). * GPT-5 ofrece un mejor análisis multimodal. Para la presentación anual de una empresa pública, se le pide a GPT-5 que aísle una celda en una tabla de una imagen que muestra cambios en los componentes de capital de la empresa. La parte superior de la tabla aclara que todos los montos de acciones están en miles, y GPT-5 indica claramente esta conversión, mientras que GPT-4.1 no lo hace, confundido dado que la tabla dice acciones y la leyenda dice acciones. * GPT-5 se desempeña mejor con altos niveles de complejidad en las indicaciones y los datos. Al hacer extracción de datos en un currículum para todas las fechas de inicio de trabajo, nombres de puestos y nombres de empleadores, GPT-5 pudo extraer cada pieza de datos mientras que GPT-4.1 parece abrumarse y no extrajo los mismos campos dada la extensión de la indicación y la complejidad del documento. * GPT-5 es mucho más claro y explícito en sus respuestas. En un acuerdo de subcontratación con 6 servicios diferentes discutidos explícitamente, cuando se le pregunta sobre "los 5 servicios específicos en el contrato", GPT-5 devolverá los primeros 5 y preguntará si fue intencional que no se preguntara sobre el sexto. En comparación, GPT-4.1 simplemente devolvió los primeros 5 sin más advertencias, lo que puede llevar a confusiones posteriores para el usuario. * GPT-5 es mejor en la interpretación de datos en campos complejos. Para un gráfico de citometría de flujo, típicamente utilizado en inmunología, GPT-5 identificó correctamente una alta proporción de células muertas y dio causas raíz plausibles que podrían llevar a la situación, mientras que GPT-4.1 dio un razonamiento mínimo, necesitando más confirmación para tener alguna conjetura a partir de datos en bruto. * GPT-5 es mejor para identificar inconsistencias en el código. Cuando se le pidió identificar problemas en un archivo de código python dado, mientras que tanto GPT-5 como 4.1 pueden identificar errores reales que llevan a fallos, solo GPT-5 pudo inferir problemas más sutiles, como imprimir la variable incorrecta cuando eso no tendría sentido en el contexto del programa. Estas mejoras en matemáticas, razonamiento, lógica y calidad de respuestas en ventanas de contexto más largas son increíblemente útiles para los usuarios finales en el trabajo diario, pero se mostrarán aún más con agentes de IA de larga duración, especialmente cuando no hay humanos en el bucle para verificar la información en cada paso. Es impresionante ver cómo estas mejoras continúan llegando en la última cosecha de modelos de IA, ya que esto llevará a agentes de IA que podrán ser utilizados en áreas de trabajo cada vez más críticas.
77,98K