為何同一個中文大模型,不同評測標(biāo)準(zhǔn)打分差異大?
2023-05-10 17:14:23 來源:雪球網(wǎng) 小 中
5月9日中文通用大模型綜合性評測基準(zhǔn)SuperCLUE正式發(fā)布。經(jīng)過一天時間的發(fā)酵,論壇上對該評測標(biāo)準(zhǔn)質(zhì)疑的聲音越發(fā)多了,這是為什么?大模型評測標(biāo)準(zhǔn)設(shè)立的難度又在哪里?
(資料圖)
中文評測標(biāo)準(zhǔn)為何重要?
科大訊飛董事長劉慶峰認(rèn)為:如果要努力追趕OpenAI的進(jìn)度,需要一套科學(xué)系統(tǒng)的評測體系;用這一套科學(xué)系統(tǒng),來判定技術(shù)迭代到底到了什么程度,還有哪些任務(wù)是不達(dá)標(biāo)的。
第一、數(shù)據(jù)集的差異性。中文和英文的文本數(shù)據(jù)集在種類、規(guī)模、質(zhì)量等方面存在很大的差異,需要針對中文特點(diǎn)開發(fā)相應(yīng)的數(shù)據(jù)集,以確保評測結(jié)果的準(zhǔn)確性和公正性。
第二、語言結(jié)構(gòu)和語法的差異。例如中文是一種“主謂賓”結(jié)構(gòu)的語言,而英文則是“主語動詞賓語”結(jié)構(gòu)的語言。這些差異導(dǎo)致了中英文之間在語言處理任務(wù)上存在很大的區(qū)別,需要不同的評測標(biāo)準(zhǔn)和方法。
第三、中文詞匯量和歧義性。中文的詞匯量非常大,而且存在很多歧義性,需要更復(fù)雜的處理方法和技術(shù),如分詞、詞性標(biāo)注、命名實(shí)體識別等。
但從當(dāng)下來看,這貌似又是一個在短期內(nèi)非常難以兌現(xiàn)的預(yù)期。
中文大模型評測標(biāo)準(zhǔn)化很難,SuperCLUE被吐槽選擇題方式單一
剛剛發(fā)布的文通用大模型基準(zhǔn)(SuperCLUE),是針對中文可用的通用大模型的一個測評基準(zhǔn)。它主要回答的問題是:在當(dāng)前通用大模型大力發(fā)展的情況下,中文大模型的效果情況。
SuperCLUE從三個不同的維度評價模型的能力:基礎(chǔ)能力、專業(yè)能力和中文特性能力。
,該評測是由中國科學(xué)院計(jì)算技術(shù)研究所自然語言處理與社會人文計(jì)算實(shí)驗(yàn)室(簡稱“計(jì)算所NLP”)開發(fā)和維護(hù)的。
JioNLP評測還提供了多種評測指標(biāo)和計(jì)算工具,以幫助研究者和開發(fā)者客觀地評估模型的性能和效果,并比較不同模型的優(yōu)缺點(diǎn)和適用范圍。
JioNLP評測方式目前的總下載量達(dá)到2.4萬次,近三十天下載量為1634次。
通過JioNLP評測,研究者和開發(fā)者可以獲取實(shí)時的評測結(jié)果和排名,以及相應(yīng)的源代碼和技術(shù)報(bào)告,為中文自然語言處理的研究和應(yīng)用提供參考和支持。
從JioNLP評測的結(jié)果來看:文心一言的得分卻又高于星火大模型。
這背后的原因是
SuperCLUE是只通過選擇題對模型能力進(jìn)行測試,而JioNLP采用的是客觀選擇題+主觀題(生成題、翻譯題和聊天題)進(jìn)行測試。
但相同的是,在官網(wǎng)留言區(qū)對于兩個測試標(biāo)準(zhǔn)都出現(xiàn)很多質(zhì)疑聲音。
如:對SuperCLUE評測方法如何限定測試題目數(shù)量,生成和創(chuàng)作類評測用選擇題測試是否合理,以及建議SuperCLUE像中文Alpaca一樣適度公開評測說明和標(biāo)準(zhǔn)。JioNLP也同樣存在測試精度、樣本量小等問題。
常用的機(jī)器學(xué)習(xí)模型評估標(biāo)準(zhǔn)有7個比較重要的方向:
包括準(zhǔn)確度(針對分類能力)、精確度和召回率(模型正確預(yù)測的內(nèi)容占該樣本的比例)、對抗攻擊魯棒性(模型在受到輸入干擾時保持穩(wěn)定的能力)、計(jì)算效率、均方誤差、R方值以及數(shù)據(jù)隱私。
從當(dāng)下來看,SuperCLUE的評測方式單一性確實(shí)存在一定的弊端,但是該模型采用的人工評價的精度也曾被市場認(rèn)可確實(shí)在精度和靈活度上面高于系統(tǒng)的自動評價方法。
總的來說,大模型測試標(biāo)準(zhǔn)化是行業(yè)所需要的,但同樣也是非常難實(shí)現(xiàn)的。
$科大訊飛(SZ002230)$$百度(BIDU)$$昆侖萬維(SZ300418)$
歡迎大家在評論區(qū)評論互動~
關(guān)注見智研究Pro,獲取更多行業(yè)熱點(diǎn)解析
關(guān)鍵詞:
相關(guān)文章
- 為何同一個中文大模型,不同評測標(biāo)準(zhǔn)打分差異大?
- 當(dāng)前要聞:【學(xué)無“指”境·03期】中證500進(jìn)入“擊球區(qū)”,你準(zhǔn)備好“揮棒”了嗎?
- 管住你的性格弱點(diǎn),賺錢才有可能
- “烏龍”?大V出手,基金瞬間直逼漲停-每日熱文
- 港交所陳翊庭:港交所將推動多項(xiàng)市場制度改革 持續(xù)拓展和優(yōu)化互聯(lián)互通機(jī)制
- 【天天速看料】寧德時代成立私募基金合伙企業(yè)
- *ST雪發(fā):雪松實(shí)業(yè)等關(guān)聯(lián)方事項(xiàng)不會對公司產(chǎn)生重大不利影響|世界快資訊
- 理想汽車:第一季度營收187.9億元 全球熱門
- 新西蘭航空首創(chuàng)飛機(jī)臥鋪,但最多只能睡4小時,預(yù)計(jì)費(fèi)用約1700至2600元
- 理想汽車-W(02015)發(fā)布一季度業(yè)績,凈利潤為9.34億元,同比扭虧為盈
- 環(huán)球焦點(diǎn)!吉林省“鄉(xiāng)村振興 萬人圓夢”工程啟動
- 呼和浩特市圖書館延長館內(nèi)自助圖書館開放時間|世界報(bào)資訊
- 數(shù)據(jù)剖析更靈活、更快捷,火山引擎DataLeap動態(tài)探查全面升級 全球看點(diǎn)
- 2023青羊區(qū)教辦幼兒園招生計(jì)劃表(名單+人數(shù))
- 環(huán)球短訊!江鈴汽車漲停
- 苦杏仁的吃法_怎么吃苦杏仁好呢
- 女子自曝被鄭州大學(xué)教授性侵,警方:她未報(bào)警,被指控者已報(bào)警
- 淤青是怎么產(chǎn)生的(淤青的產(chǎn)生原因有哪些)
- 阿里系淘天集團(tuán)首次亮相,定調(diào)“三新”變革
- 昇興股份:擬金堂縣投建制罐產(chǎn)線 完善西南地區(qū)業(yè)務(wù)布局
- 環(huán)球熱消息:硅業(yè)分會:多晶硅短期需求減少 價格擴(kuò)大跌幅
- 首鋼股份:4月新能源汽車用電工鋼銷量同比增長約97%
- 簡訊:大金重工:全資子公司蓬萊大金與某歐洲能源開發(fā)企業(yè)簽署了某海風(fēng)項(xiàng)目供貨合同
- 【時快訊】棕櫚股份:中標(biāo)1.2億元生態(tài)修復(fù)工程項(xiàng)目
- 速遞!新致軟件:上海仰岳等擬合計(jì)減持不超0.88%股份
- 中核鈦白:金星鈦白的鈦白粉產(chǎn)線已全面恢復(fù)正常生產(chǎn) 全球速看
- 宗申動力:宗申航發(fā)公司擬引入戰(zhàn)略投資者對其增資擴(kuò)股
- 國家區(qū)塊鏈技術(shù)創(chuàng)新中心落地中關(guān)村
- “索羅斯戰(zhàn)友”密集唱空美國經(jīng)濟(jì),但稱未來幾年機(jī)會難以置信-當(dāng)前通訊
- 觀速訊丨太可怕了!今天A股又大跌46點(diǎn),為啥主力卻抄底了?原因是這樣
熱文推薦
當(dāng)前要聞:【學(xué)無“指”境·03期】中證500進(jìn)入“擊球區(qū)”,你準(zhǔn)備好“揮棒”了嗎?
剛剛過去的周末,看到不少投資者在談?wù)撍赜?ldquo;投資界春......更多>
排行推薦
港交所陳翊庭:港交所將推動多項(xiàng)市場制度改革 持續(xù)拓展和優(yōu)化互聯(lián)互通機(jī)制
【天天速看料】寧德時代成立私募基金合伙企業(yè)
*ST雪發(fā):雪松實(shí)業(yè)等關(guān)聯(lián)方事項(xiàng)不會對公司產(chǎn)生重大不利影響|世界快資訊


