Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ti sei mai chiesto cosa serve realmente per addestrare un modello di AI all'avanguardia?
Ankit Gupta di YC (@GuptaAnkitV) ha parlato con Nick Joseph (@nickevanjoseph), responsabile del Pre-training di Anthropic, per esplorare le sfide ingegneristiche dietro l'addestramento di Claude—dalla gestione di migliaia di GPU e il debug di bug maledetti all'equilibrio del calcolo tra pre-addestramento e RL.
Trattano delle leggi di scalabilità, delle strategie sui dati, della composizione del team e del perché i problemi più difficili nell'AI siano spesso problemi di infrastruttura, non problemi di ML.
01:05 – Da Vicarious a OpenAI a Anthropic
06:40 – Cos'è il pre-addestramento
11:20 – Perché la previsione della parola successiva ha prevalso
16:05 – Leggi di scalabilità e il ciclo di feedback di calcolo → modelli → entrate
21:50 – Costruire l'infrastruttura iniziale di Anthropic
27:35 – Hack di efficienza e debug su larga scala
33:10 – Generalisti vs. specialisti nel team di pre-addestramento
38:45 – Sfide dell'addestramento su migliaia di GPU
44:15 – Lavorare con nuovi chip: GPU vs. TPU
49:00 – Pre-addestramento vs. post-addestramento (RLHF e modelli di ragionamento)
54:25 – Il futuro della qualità e disponibilità dei dati
59:10 – Dove va il pre-addestramento dopo
Sintonizzati:

120,55K
Principali
Ranking
Preferiti