會上,中國移動研究院聯(lián)合北京郵電大學、中國科學院計算技術研究所、北京市科學技術研究院、科大訊飛、百度、武漢大學和重慶理工大學等知名高校、科研機構和頭部企業(yè)聯(lián)合發(fā)布了《“弈衡”通用大模型評測體系白皮書》。該白皮書是行業(yè)中首個大模型評測領域白皮書,基于客觀全面、公平公正和用戶視角的三大原則,創(chuàng)新性地提出了“2-4-6”的“弈衡”通用大模型評測體系。該體系將評估場景劃分為基礎任務和應用任務,明確四項主要評測要素,并制定涵蓋六大維度的50余個評測指標。“弈衡”評測體系可對國內外大模型開展有效評測分析,充分揭示大模型在應用中的固有問題,客觀反映各模型在準確性、可靠性以及安全性等方面的差異,為大模型的評測實踐和產(chǎn)業(yè)應用提供指導。

來自中國移動、北京郵電大學、中國科學院計算技術研究所、信通院、科大訊飛、百度等多家單位的領導和專家,圍繞運營商大模型發(fā)展思路、CV大模型前沿技術、國內優(yōu)秀大模型發(fā)展狀況、大模型基礎設施和生態(tài)、行業(yè)評測標準等主題,在會上發(fā)表了精彩演講,為推動大模型技術發(fā)展奉獻了一場知識盛宴,引起了線上線下與會觀眾的熱烈反響。
此外,會上正式成立CCIR大模型評測工作組,并發(fā)布“2023 CCIR全國信息檢索挑戰(zhàn)杯”中國移動賽道賽題。