SWE-bench Verified是衡量AI编程能力的金标准——用真实GitHub Issue测试。

2026排名

  • Claude Code + Opus 4.7——55.8%(最高)
  • Cursor Agent + GPT-5.4——52.3%
  • Devin——45.1%
  • OpenHands + Llama 3.1——38.7%(开源最高)

关键发现:Agent框架比单纯模型能力更重要;多步骤规划是关键差异点。

编译来源:LangChain Blog (2026)