RLHI: Aprendizado por reforço a partir da interação humana • Vai além dos dados anotados por especialistas → aprende com conversas reais do usuário • Dois métodos: 1. Reescritas guiadas pelo usuário 2. Recompensas baseadas no usuário • Supera as linhas de base em personalização, acompanhamento de instruções e raciocínio