OpenAI推出了一个基准测试框架,旨在衡量AI代理在检测、缓解甚至利用加密智能合约安全漏洞方面的有效性。该项目名为"EVMbench:评估AI代理在智能合约安全方面的表现",是与Paradigm和OtterSec合作发布的,这两个组织在区块链安全和投资方面拥有深厚的经验。该研究针对从40次智能合约审计中精选的120个潜在弱点评估AI代理,不仅要量化检测和修补能力,还要量化这些代理在受控环境中的理论利用潜力。
AI代理的检测奖励在随附研究的OpenAI PDF中有详细说明,该文件还描述了评估方法和用于模拟现实世界智能合约风险的场景。作者强调,虽然AI代理已经发展到可以自动化各种常规任务,但评估它们在"具有经济意义的环境"中的表现对于了解它们在生产系统压力下的表现至关重要。
OpenAI指出,它预计代理技术将扩大支付和结算的范围,包括在自动化工作流程中使用的稳定币。围绕AI支付的讨论超越了安全测试,延伸到自主系统如何参与日常金融活动这一更广泛的问题。该公司自己的预测表明,代理支付可能会变得更加普遍,将AI能力建立在涉及日常消费者交易的实际用例中。
与基准测试结果同步,Circle首席执行官Jeremy Allaire公开预测,未来五年内可能有数十亿AI代理使用稳定币进行日常支付交易。这一观点与加密圈中的一个反复出现的主题相交:加密货币成为AI代理原生货币的潜力,这一叙述已经引起了行业领导者和投资者的显著关注。虽然这些预测仍然是推测性的,但潜在趋势是明确的——AI自动化正在从实验室转向交易层,在那里它可能重塑价值在网络中的流动方式。
该研究发布之际,加密安全继续成为投资者的重要风险因素。关于2025年加密资金遭受攻击的数据点——攻击者窃取了约34亿美元——突显了改进工具和更快、更可靠的修补机制的紧迫性。EVMbench框架在一定程度上被定位为衡量AI代理是否能有意义地大规模贡献防御能力,减少利用机会并加速威胁缓解的方法。
为了构建基准测试,研究人员利用了跨越40次智能合约审计的120个精选漏洞,许多弱点可追溯到开源审计挑战。OpenAI认为,该基准测试将有助于跟踪AI在大规模识别和缓解合约级弱点方面的进展,提供一种标准化的方法来比较未来AI模型的演变。该研究还提供了一个视角,说明如何将AI应用于各种智能合约架构的风险评估标准化,而不仅仅关注孤立案例。
在X上的一个同期帖子中,Dragonfly的合伙人Haseeb Qureshi认为,加密货币取代财产权和传统合约的承诺从未实现,不是因为技术失败,而是因为它从未考虑到人类直觉。他强调了在排水钱包和其他攻击载体仍然是持续威胁的环境中签署大额交易所带来的持续恐惧,这与传统银行转账相对更顺畅的体验形成鲜明对比。
Qureshi认为,加密交易的下一阶段可能由AI中介的自动驾驶钱包实现。此类钱包将监控风险、管理复杂操作,并代表用户自主应对威胁,有可能减少当今大额转账的摩擦和恐惧。
从这个帖子中得出的更广泛结论是,AI代理可能在转变人们与加密货币互动的方式中发挥关键作用——从手动、容易出错的交易转向可以随着采用而扩展的自动化、风险意识流程。随着AI代理开始展示在处理安全问题方面的更多能力,即使底层技术继续成熟,用户也可能看到去中心化金融工作流程的可靠性和弹性得到改善。
EVMbench研究表明,大型语言模型和相关AI代理开始在智能合约领域执行有意义的安全工作,模型之间存在明显可量化的差异。Claude Opus 4.6在平均检测奖励方面的领先地位表明,某些架构可能更善于在复杂的合约逻辑中发现和缓解漏洞,而其他架构则落后,提供了研究人员可能希望完善的一系列能力。该项目中多个行业合作伙伴的参与强调了日益增长的共识,即AI安全和自动化风险管理可能成为去中心化环境中大规模发展的关键。
随着领域的发展,观察者将关注AI代理从检测到修复的过渡速度,以及这些代理是否能在实时系统中可靠运行而不引入新风险。关于AI驱动钱包和自主支付的对话涉及围绕安全治理、用户同意和监管协调的更广泛问题。如果OpenAI及其合作伙伴所建议的轨迹继续下去,AI辅助工具可能成为未来加密基础设施的核心组成部分,以有意义的方式改变风险计算和用户体验。下一轮基准测试以及实际部署将有助于确定这一愿景实现的速度以及必须伴随的保障措施。
本文最初以OpenAI Pits AI Agents Against Each Other to Red-Team Smart Contracts发布在Crypto Breaking News上——您值得信赖的加密新闻、Bitcoin新闻和区块链更新来源。


