o3在ARC-AGI达到87.5%,但日常编程/写作任务与o1差距仅5-8%。

适用场景

  • 数学/逻辑——碾压级优势
  • 代码调试——中等提升
  • 创意写作——几乎无差别

按需选择:简单任务用4o更划算;复杂推理才需o3。

编译来源:Anil Dash Blog (2026)