Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O alinhamento online é o único caminho a seguir, apesar de ser lento e computacionalmente caro?
Inspirados na teoria do prospecto, fornecemos uma explicação centrada no ser humano sobre por que o alinhamento on-line (por exemplo, GRPO) supera o alinhamento off-line (por exemplo, DPO, KTO) e mostramos empiricamente como fechar a lacuna on-line e off-line com o Humanline, um design de duas partes simples, mas consistentemente eficaz.
💡Descoberta principal: A aplicação da linha humana em cima dos objetivos off-line pode ter um desempenho igual ao de suas contrapartes on-line, tanto no seguimento de instruções quanto no raciocínio matemático. Ganhos consistentes em diferentes objetivos, famílias de modelos e tamanhos de modelos!
Mais em tópicos 🧵

Melhores
Classificação
Favoritos