¿Alguna vez te has preguntado qué se necesita realmente para entrenar un modelo de IA de frontera? Ankit Gupta (@GuptaAnkitV) de YC se sentó con Nick Joseph (@nickevanjoseph), Jefe de Pre-entrenamiento de Anthropic, para explorar los desafíos de ingeniería detrás del entrenamiento de Claude, desde la gestión de miles de GPU y la depuración de errores malditos hasta el equilibrio de la computación entre el pre-entrenamiento y RL. Cubren las leyes de escalado, las estrategias de datos, la composición del equipo y por qué los problemas más difíciles en IA suelen ser problemas de infraestructura, no problemas de ML. 01:05 - De Vicarious a OpenAI a Anthropic 06:40 - Qué es el preentrenamiento 11:20 - Por qué ganó la predicción de la siguiente palabra 16:05 - Leyes de escalado y el ciclo de retroalimentación de los modelos de → de computación → los ingresos 21:50 - Construyendo la infraestructura temprana de Anthropic 27:35 - Trucos de eficiencia y depuración a escala 33:10 - Generalistas vs. especialistas en el equipo de preentrenamiento 38:45 - Desafíos del entrenamiento en miles de GPU 44:15 - Trabajar con nuevos chips: GPU frente a TPU 49:00 – Preentrenamiento vs. post-entrenamiento (RLHF y modelos de razonamiento) 54:25 – El futuro de la calidad y disponibilidad de los datos 59:10 - A dónde va el preentrenamiento
Sintonizar:
82.56K