更离奇的是,就算在同一榜单中,也经常出现多个大模型共同认领第一的情况。比如某手机厂商宣布,其“自研大模型在C-Eval全球中文榜单中排名第一。此前其自研大模型已取得C-Eval百亿内大模型榜单第一,CMMLU全球中文榜单第一以及其百亿内大模型榜单第一的好成绩。”同一时间,某互联网巨头旗下的创新业务宣称其“千亿级参数的大模型登顶C-Eval和CMMLU两大权威评测榜单,多项性能优于GPT-4。”看到这里很多人肯定会有疑问:为什么在C-Eval和CMMLU这两大“权威评测榜单”中,均会同时出现两个第一?——如果继续搜索恐怕还能找到更多认领第一的情况。