よくやった - 手作りの検証者を使わない探索的RLは、明らかな次のスケーリングの賭けです