RLHI: Aprendizagem por Reforço a partir da Interação Humana • Vai além dos dados anotados por especialistas → aprende com conversas reais de usuários • Dois métodos: 1. Reescritas Guiadas pelo Usuário 2. Recompensas Baseadas no Usuário • Supera as referências em personalização, seguimento de instruções e raciocínio