Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zastanawiałeś się kiedyś, co tak naprawdę jest potrzebne do wytrenowania modelu AI na granicy możliwości?
Ankit Gupta z YC (@GuptaAnkitV) usiadł z Nickiem Joseph'em (@nickevanjoseph), szefem pre-treningu w Anthropic, aby zbadać wyzwania inżynieryjne związane z treningiem Claude'a — od zarządzania tysiącami GPU i debugowania przeklętych błędów po równoważenie obliczeń między pre-treningiem a RL.
Poruszają kwestie praw skalowania, strategie danych, skład zespołu oraz dlaczego najtrudniejsze problemy w AI często są problemami infrastrukturalnymi, a nie problemami ML.
01:05 – Od Vicarious do OpenAI do Anthropic
06:40 – Czym jest pre-trening
11:20 – Dlaczego przewidywanie następnego słowa wygrało
16:05 – Prawa skalowania i pętla sprzężenia zwrotnego obliczenia → modele → przychody
21:50 – Budowanie wczesnej infrastruktury Anthropic
27:35 – Sztuczki zwiększające efektywność i debugowanie na dużą skalę
33:10 – Generalista vs. specjaliści w zespole pre-treningowym
38:45 – Wyzwania związane z treningiem na tysiącach GPU
44:15 – Praca z nowymi chipami: GPU vs. TPU
49:00 – Pre-trening vs. post-trening (RLHF i modele rozumowania)
54:25 – Przyszłość jakości i dostępności danych
59:10 – Dokąd zmierza pre-trening
Dołącz do nas:

82,56K
Najlepsze
Ranking
Ulubione