RLHF (aprendizado por reforço com feedback Hasan)