AI模型评测基准深度解析:MMLU vs HELM vs LiveBench(Nature Machine Intelligence)
AI评测基准不是"考试分数"那么简单:
三大基准
- MMLU——57学科知识测试,最广泛引用,但数据污染严重
- HELM——斯坦福出品,多维度评估(准确率+偏见+毒性+效率),最全面
- LiveBench——持续更新防数据污染,LMSYS维护,最可靠
读评测的黄金法则:1) 单一基准不够;2) 关注基准是否被污染;3) 看胜率不是看总分;4) 实际任务测试最重要。
编译来源:Nature Machine Intelligence (2026)