RLHF (aprendizaje por refuerzo con retroalimentación de Hasan)