Flott arbeid av @JamesTamplin for å gå utover standard vurderinger for å bedømme AI-modeller. Overraskende å se Gemini 2.5 Flash utslette på denne minecraft-simuleringen.