DuPO Habilitación de la autoverificación confiable de LLM a través de la optimización de doble preferencia
11.4K