El algoritmo X debería ser RL'd con su recompensa siendo la escala Kardashev