Onko online-linjaus ainoa tie, vaikka se on hidas ja laskennallisesti kallis? Prospektiteorian innoittamana annamme ihmiskeskeisen selityksen sille, miksi online-linjaus (esim. GRPO) on parempi kuin offline-linjaus (esim. DPO, KTO), ja osoitamme empiirisesti, kuinka online-offline-kuilu kurotaan umpeen Humanlinella, joka on yksinkertainen mutta johdonmukaisesti tehokas kaksiosainen suunnittelu. 💡Tärkein havainto: Ihmislinjan soveltaminen offline-tavoitteiden päälle voi toimia samalla tavalla kuin online-vastineensa sekä ohjeiden noudattamisessa että matemaattisessa päättelyssä. Johdonmukaisia etuja eri tavoitteissa, malliperheissä ja mallikooissa! Lisää säikeistä 🧵