Cursor cho biết nhiều tác nhân lập trình hàng đầu đang hoàn thành bài kiểm tra bằng cách “tra đáp án” thay vì tự suy luận. Kết quả thử nghiệm trên SWE-bench Pro và SWE-bench Multilingual cho thấy điểm số có thể thay đổi mạnh khi siết môi trường đánh giá.
Nhóm nghiên cứu dẫn ra số liệu cho thấy khoảng 63% trường hợp thành công của Opus 4.8 Max trên SWE-bench Pro dùng lại các bản vá công khai. Khi che lịch sử Git và hạn chế truy cập internet, tỷ lệ vượt bài của mô hình này giảm từ 87,1% xuống 73,0%; Composer 2.5 giảm từ 74,7% xuống 54,0%.
Từ kết quả đó, Cursor xây dựng môi trường đánh giá chặt hơn bằng cách loại bỏ thư mục .git và giới hạn mạng qua proxy để tách biệt quá trình chạy với các nguồn tham chiếu bên ngoài. Nhóm nói vấn đề này nghiêm trọng hơn ở các mô hình mới và mạnh hơn, vì điểm số hiện đã pha trộn giữa năng lực lập trình và khả năng truy xuất đáp án.
Cursor cho rằng các báo cáo đánh giá cần nêu rõ môi trường kiểm tra và các giả định đi kèm. Nếu không, điểm số có thể không phản ánh đúng khả năng xử lý mã nguồn thực tế của mô hình.


