le sycophantisme des modèles vient du rlhf, n'est-ce pas ? où les humains sont plus susceptibles (en général) d'évaluer les réponses sycophantes plus hautes ? alors nous pourrions nous attendre à ce qu'à mesure que les modèles s'améliorent, ils apprennent des styles d'écriture qui préféreront plus de sycophantisme contre moins et s'ajustent en conséquence. ceux qui souhaitent préserver leur santé mentale pourraient vouloir envisager de devenir le type "moins" dès que possible.
2,3K