返回    放大 +    縮小 -
MiniMax宣佈開源面向Coding Agent的新評測集
推薦
7
利好
10
利淡
8
格隆匯新聞
1月14日|MiniMax宣佈開源面向Coding Agent的新評測集OctoCodingBench。MiniMax表示,基於該評測集,其針對現有的開源閉源模型進行了廣泛的評估,並發現一些很有啟發性的實驗結果:所有模型的Check-level 準確率(CSR)可以達到80%+,但Instance-level成功率(ISR)只有10%-30%;絕大模型模型的指令遵循能力會隨着輪次的變多逐漸下降;現階段模型表現普遍未能達到生產級要求,過程合規仍是盲區;開源模型正在快速追趕閉源模型。
新聞來源 (不包括新聞圖片): 格隆匯