AI模型评测基准深度解析：MMLU vs HELM vs LiveBench（Nature Machine Intelligence）

海外评测编译 2026年05月04日 36 阅读

AI评测基准不是"考试分数"那么简单：

三大基准

读评测的黄金法则：1) 单一基准不够；2) 关注基准是否被污染；3) 看胜率不是看总分；4) 实际任务测试最重要。

编译来源：Nature Machine Intelligence (2026)