AI评测基准不是"考试分数"那么简单:

三大基准

  • MMLU——57学科知识测试,最广泛引用,但数据污染严重
  • HELM——斯坦福出品,多维度评估(准确率+偏见+毒性+效率),最全面
  • LiveBench——持续更新防数据污染,LMSYS维护,最可靠

读评测的黄金法则:1) 单一基准不够;2) 关注基准是否被污染;3) 看胜率不是看总分;4) 实际任务测试最重要。

编译来源:Nature Machine Intelligence (2026)