Es ist cool, die OSWorld-Computerbenutzerscores mit einigen realen qualitativen Agententests zu ergänzen!