AI代理在狭窄范围的任务上表现得*很棒*,但在更广泛的范围内仍然太不可靠。真正的问题是,这种情况会多快改变?
1.39K