三大旗舰模型统一测试(8维度x50任务):

综合排名

维度GPT-5.4Opus 4.7Gemini 3.1
编程213
推理231
写作123
多模态121

没有绝对赢家,按核心需求选择。

编译来源:Ars Technica (2026)