RLHF (uczenie przez wzmocnienie z feedbackiem od Hasana)