RLHF (pembelajaran penguatan dengan umpan balik Hasan)