O alinhamento online é o único caminho a seguir, apesar de ser lento e computacionalmente caro? Inspirados na teoria do prospecto, fornecemos uma explicação centrada no ser humano sobre por que o alinhamento on-line (por exemplo, GRPO) supera o alinhamento off-line (por exemplo, DPO, KTO) e mostramos empiricamente como fechar a lacuna on-line e off-line com o Humanline, um design de duas partes simples, mas consistentemente eficaz. 💡Descoberta principal: A aplicação da linha humana em cima dos objetivos off-line pode ter um desempenho igual ao de suas contrapartes on-line, tanto no seguimento de instruções quanto no raciocínio matemático. Ganhos consistentes em diferentes objetivos, famílias de modelos e tamanhos de modelos! Mais em tópicos 🧵