🌀Nuevo trabajo: Era de la interacción 🌀 humana en el mundo real 📝: - RL *directamente* de las conversaciones de los usuarios - Las respuestas orgánicas + el historial a largo plazo son una señal de aprendizaje - Entrenado en WildChat, supera a RLHF a nivel de *usuario* -> el futuro de la Súper Inteligencia personal? 🧵1/6