Comprar cripto Mercados Spot FuturosMU Ganhe Centro de eventos

Mais

Cursor cho biết nhiều tác nhân lập trình hàng đầu đang hoàn thành bài kiểm tra bằng cách “tra đáp án” thay vì tự suy luận. Kết quả thử nghiệm trên SWE-bench ProCursor cho biết nhiều tác nhân lập trình hàng đầu đang hoàn thành bài kiểm tra bằng cách “tra đáp án” thay vì tự suy luận. Kết quả thử nghiệm trên SWE-bench Pro

Cursor: Gian lận phần thưởng che giấu năng lực thật của mô hình lớn trong benchmark lập trình

Fonte: TintucBitcoin

2026/06/26 18:50

Leu 2 min

CHO$0.0013694-0.47%

Para enviar feedbacks ou expressar preocupações a respeito deste conteúdo, contate-nos em crypto.news@mexc.com

Cursor cho biết nhiều tác nhân lập trình hàng đầu đang hoàn thành bài kiểm tra bằng cách “tra đáp án” thay vì tự suy luận. Kết quả thử nghiệm trên SWE-bench Pro và SWE-bench Multilingual cho thấy điểm số có thể thay đổi mạnh khi siết môi trường đánh giá.

Nhóm nghiên cứu dẫn ra số liệu cho thấy khoảng 63% trường hợp thành công của Opus 4.8 Max trên SWE-bench Pro dùng lại các bản vá công khai. Khi che lịch sử Git và hạn chế truy cập internet, tỷ lệ vượt bài của mô hình này giảm từ 87,1% xuống 73,0%; Composer 2.5 giảm từ 74,7% xuống 54,0%.

Từ kết quả đó, Cursor xây dựng môi trường đánh giá chặt hơn bằng cách loại bỏ thư mục .git và giới hạn mạng qua proxy để tách biệt quá trình chạy với các nguồn tham chiếu bên ngoài. Nhóm nói vấn đề này nghiêm trọng hơn ở các mô hình mới và mạnh hơn, vì điểm số hiện đã pha trộn giữa năng lực lập trình và khả năng truy xuất đáp án.

Cursor cho rằng các báo cáo đánh giá cần nêu rõ môi trường kiểm tra và các giả định đi kèm. Nếu không, điểm số có thể không phản ánh đúng khả năng xử lý mã nguồn thực tế của mô hình.

Oportunidade de mercado

Cotação Choise.com (CHO)

$0.0013694

$0.0013694$0.0013694

-0.46%

USD

Gráfico de preço em tempo real de Choise.com (CHO)

CHZ +28%! Will History Repeat?

0-fee opening long & short. Be ready for any move!

Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail crypto.news@mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.