Chúng tôi đã thực hiện một thử nghiệm ngẫu nhiên có đối chứng để xem các công cụ mã hóa AI tăng tốc cho các nhà phát triển mã nguồn mở có kinh nghiệm như thế nào. Kết quả khiến chúng tôi ngạc nhiên: Các nhà phát triển nghĩ rằng họ nhanh hơn 20% với các công cụ AI, nhưng thực tế họ chậm hơn 19% khi họ có quyền truy cập vào AI so với khi họ không truy cập.
Chúng tôi đã tuyển dụng 16 nhà phát triển mã nguồn mở có kinh nghiệm để làm việc trên 246 nhiệm vụ thực tế trong kho lưu trữ của riêng họ (trung bình 22k+ sao, 1 triệu + dòng mã). Chúng tôi chỉ định ngẫu nhiên từng nhiệm vụ để cho phép AI (thường là Cursor Pro với Claude 3.5 / 3.7) hoặc không cho phép AI trợ giúp.
Khi bắt đầu nghiên cứu, các nhà phát triển dự báo rằng họ sẽ tăng tốc 24%. Sau khi thực sự thực hiện công việc, họ ước tính rằng chúng đã được tăng tốc 20%. Nhưng hóa ra chúng thực sự đã chậm lại 19%.
Khi AI được cho phép, các nhà phát triển dành ít thời gian hơn để chủ động viết mã và tìm kiếm thông tin, thay vào đó dành thời gian nhắc nhở AI, chờ đợi / xem xét đầu ra AI và nhàn rỗi. Chúng tôi không tìm thấy lý do duy nhất cho sự chậm lại - nó được thúc đẩy bởi sự kết hợp của nhiều yếu tố.
Tại sao chúng tôi thực hiện nghiên cứu này? Điểm chuẩn tác nhân AI có những hạn chế — chúng khép kín, sử dụng tính điểm thuật toán và thiếu sự tương tác trực tiếp của con người. Điều này có thể gây khó khăn cho việc suy luận trực tiếp tác động trong thế giới thực. Nếu chúng ta muốn có một hệ thống cảnh báo sớm về việc liệu nghiên cứu và phát triển AI có đang được tăng tốc bởi chính AI hay thậm chí tự động hóa hay không, sẽ rất hữu ích nếu có thể đo lường trực tiếp điều này trong các thử nghiệm kỹ sư trong thế giới thực, thay vì dựa vào các proxy như điểm chuẩn hoặc thậm chí thông tin ồn ào hơn như giai thoại.
Chúng ta lấy đi điều gì? 1. Có vẻ như đối với một số cài đặt quan trọng, công cụ AI gần đây đã không làm tăng năng suất (và trên thực tế có thể làm giảm nó). 2. Tự báo cáo về tăng tốc là không đáng tin cậy - để hiểu tác động của AI đối với năng suất, chúng ta cần thử nghiệm trong tự nhiên.
576,15K