<nav id="cjthq"><strong id="cjthq"><legend id="cjthq"></legend></strong></nav>

        国产av丝袜熟女一二三,麻豆精品一区二区视频在线,中文字幕日韩精品人妻,精品无码av不卡一区二区三区,国产精品自在自线视频,久久国产亚洲精选av,91精品国产91久久综合,一本一道久久久a久久久精品91

        為何同一個中文大模型,不同評測標(biāo)準(zhǔn)打分差異大?

        2023-05-10 17:14:23 來源:雪球網(wǎng)

        5月9日中文通用大模型綜合性評測基準(zhǔn)SuperCLUE正式發(fā)布。經(jīng)過一天時間的發(fā)酵,論壇上對該評測標(biāo)準(zhǔn)質(zhì)疑的聲音越發(fā)多了,這是為什么?大模型評測標(biāo)準(zhǔn)設(shè)立的難度又在哪里?


        (資料圖)

        中文評測標(biāo)準(zhǔn)為何重要?

        科大訊飛董事長劉慶峰認(rèn)為:如果要努力追趕OpenAI的進(jìn)度,需要一套科學(xué)系統(tǒng)的評測體系;用這一套科學(xué)系統(tǒng),來判定技術(shù)迭代到底到了什么程度,還有哪些任務(wù)是不達(dá)標(biāo)的。

        第一、數(shù)據(jù)集的差異性。中文和英文的文本數(shù)據(jù)集在種類、規(guī)模、質(zhì)量等方面存在很大的差異,需要針對中文特點(diǎn)開發(fā)相應(yīng)的數(shù)據(jù)集,以確保評測結(jié)果的準(zhǔn)確性和公正性。

        第二、語言結(jié)構(gòu)和語法的差異。例如中文是一種“主謂賓”結(jié)構(gòu)的語言,而英文則是“主語動詞賓語”結(jié)構(gòu)的語言。這些差異導(dǎo)致了中英文之間在語言處理任務(wù)上存在很大的區(qū)別,需要不同的評測標(biāo)準(zhǔn)和方法。

        第三、中文詞匯量和歧義性。中文的詞匯量非常大,而且存在很多歧義性,需要更復(fù)雜的處理方法和技術(shù),如分詞、詞性標(biāo)注、命名實(shí)體識別等。

        但從當(dāng)下來看,這貌似又是一個在短期內(nèi)非常難以兌現(xiàn)的預(yù)期。

        中文大模型評測標(biāo)準(zhǔn)化很難,SuperCLUE被吐槽選擇題方式單一

        剛剛發(fā)布的文通用大模型基準(zhǔn)(SuperCLUE),是針對中文可用的通用大模型的一個測評基準(zhǔn)。它主要回答的問題是:在當(dāng)前通用大模型大力發(fā)展的情況下,中文大模型的效果情況。

        SuperCLUE從三個不同的維度評價模型的能力:基礎(chǔ)能力、專業(yè)能力和中文特性能力。

        ,該評測是由中國科學(xué)院計(jì)算技術(shù)研究所自然語言處理與社會人文計(jì)算實(shí)驗(yàn)室(簡稱“計(jì)算所NLP”)開發(fā)和維護(hù)的。

        JioNLP評測還提供了多種評測指標(biāo)和計(jì)算工具,以幫助研究者和開發(fā)者客觀地評估模型的性能和效果,并比較不同模型的優(yōu)缺點(diǎn)和適用范圍。

        JioNLP評測方式目前的總下載量達(dá)到2.4萬次,近三十天下載量為1634次。

        通過JioNLP評測,研究者和開發(fā)者可以獲取實(shí)時的評測結(jié)果和排名,以及相應(yīng)的源代碼和技術(shù)報(bào)告,為中文自然語言處理的研究和應(yīng)用提供參考和支持。

        從JioNLP評測的結(jié)果來看:文心一言的得分卻又高于星火大模型。

        這背后的原因是

        SuperCLUE是只通過選擇題對模型能力進(jìn)行測試,而JioNLP采用的是客觀選擇題+主觀題(生成題、翻譯題和聊天題)進(jìn)行測試。

        但相同的是,在官網(wǎng)留言區(qū)對于兩個測試標(biāo)準(zhǔn)都出現(xiàn)很多質(zhì)疑聲音。

        如:對SuperCLUE評測方法如何限定測試題目數(shù)量,生成和創(chuàng)作類評測用選擇題測試是否合理,以及建議SuperCLUE像中文Alpaca一樣適度公開評測說明和標(biāo)準(zhǔn)。JioNLP也同樣存在測試精度、樣本量小等問題。

        常用的機(jī)器學(xué)習(xí)模型評估標(biāo)準(zhǔn)有7個比較重要的方向:

        包括準(zhǔn)確度(針對分類能力)、精確度和召回率(模型正確預(yù)測的內(nèi)容占該樣本的比例)、對抗攻擊魯棒性(模型在受到輸入干擾時保持穩(wěn)定的能力)、計(jì)算效率、均方誤差、R方值以及數(shù)據(jù)隱私。

        從當(dāng)下來看,SuperCLUE的評測方式單一性確實(shí)存在一定的弊端,但是該模型采用的人工評價的精度也曾被市場認(rèn)可確實(shí)在精度和靈活度上面高于系統(tǒng)的自動評價方法。

        總的來說,大模型測試標(biāo)準(zhǔn)化是行業(yè)所需要的,但同樣也是非常難實(shí)現(xiàn)的。

        $科大訊飛(SZ002230)$$百度(BIDU)$$昆侖萬維(SZ300418)$

        歡迎大家在評論區(qū)評論互動~

        關(guān)注見智研究Pro,獲取更多行業(yè)熱點(diǎn)解析

        關(guān)鍵詞:

        相關(guān)文章

        熱文推薦

        為何同一個中文大模型,不同評測標(biāo)準(zhǔn)打分差異大?
        為何同一個中文大模型,不同評測標(biāo)準(zhǔn)打分差異大?

        5月9日中文通用大模型綜合性評測基準(zhǔn)SuperCLUE正式發(fā)......更多>

        管住你的性格弱點(diǎn),賺錢才有可能
        管住你的性格弱點(diǎn),賺錢才有可能

        巴菲特說,對于投資,最重要的不是你的智商,而是你的......更多>

        “烏龍”?大V出手,基金瞬間直逼漲停-每日熱文
        “烏龍”?大V出手,基金瞬間直逼漲停-每日熱文

        業(yè)內(nèi)有名的投顧大V“E大”,在其官微發(fā)文稱買入華寶中......更多>

        排行推薦

        港交所陳翊庭:港交所將推動多項(xiàng)市場制度改革 持續(xù)拓展和優(yōu)化互聯(lián)互通機(jī)制
        港交所陳翊庭:港交所將推動多項(xiàng)市場制度改革 持續(xù)拓展和優(yōu)化互聯(lián)互通機(jī)制
        5月10日,港交所未來科技峰會在深圳舉行。會上,港交... 更多>
        【天天速看料】寧德時代成立私募基金合伙企業(yè)
        【天天速看料】寧德時代成立私募基金合伙企業(yè)
        廈門溥泉私募基金管理合伙企業(yè)(有限合伙)成立,出資... 更多>
        *ST雪發(fā):雪松實(shí)業(yè)等關(guān)聯(lián)方事項(xiàng)不會對公司產(chǎn)生重大不利影響|世界快資訊
        *ST雪發(fā):雪松實(shí)業(yè)等關(guān)聯(lián)方事項(xiàng)不會對公司產(chǎn)生重大不利影響|世界快資訊
        *ST雪發(fā)(002485)披露股票交易異動公告稱,近期公司... 更多>
        理想汽車:第一季度營收187.9億元 全球熱門
        理想汽車:第一季度營收187.9億元 全球熱門
        理想汽車:第一季度營收187 9億元,市場預(yù)期186 8億... 更多>
        熱點(diǎn)聚焦:接下來需求弱勢輪動到晶圓代工、設(shè)備、零部件了。
        剛看到芯片ETF創(chuàng)階段性新低了。再更新一下接下來的風(fēng)... 更多>
        為什么看好網(wǎng)宿科技300017?|當(dāng)前快報(bào)
        很多人可能不了解網(wǎng)宿科技的業(yè)務(wù),網(wǎng)宿科技是做什么的... 更多>
        每日投顧發(fā)車信息匯總:大盤回調(diào)看投顧機(jī)構(gòu)都在買什么 全球熱推薦
        以下是截取的部分投顧主理人的發(fā)車觀點(diǎn):$永動機(jī)股票... 更多>
        阿里系淘天集團(tuán)首次亮相,定調(diào)“三新”變革
        阿里巴巴組織架構(gòu)調(diào)整后,新組建的淘天集團(tuán)5月10日首... 更多>
        全球觀點(diǎn):硅業(yè)分會:多晶硅短期需求減少 價格擴(kuò)大跌幅
        本周國內(nèi)N型料價格區(qū)間在16 0-17 1萬元 噸,成交均... 更多>
        熱門看點(diǎn):倫敦金屬交易所(LME):鋁庫存增加8700噸
        倫敦金屬交易所(LME):鋁庫存增加8700噸,銅庫存增加3... 更多>
        環(huán)球微動態(tài)丨交通銀行副行長周萬阜:預(yù)計(jì)二季度對公信貸增速較一季度將放緩 項(xiàng)目儲備總體較為充裕
        對于二季度信貸投放,交通銀行副行長周萬阜今日在“上... 更多>
        首鋼股份:4月新能源汽車用電工鋼銷量同比增長約97% 焦點(diǎn)觀察
        首鋼股份5月10日晚間公告,4月,公司經(jīng)營生產(chǎn)順穩(wěn)。公... 更多>
        新城鎮(zhèn)鄧善沽村:幫扶慰問困境群眾 真情關(guān)懷溫暖人心 全球聚焦
        在4月和5月開展的走訪工作中,新城鎮(zhèn)鄧善沽村黨組織得... 更多>
        5月10日國內(nèi)黃金期貨漲0.46%-天天最新
        中國經(jīng)濟(jì)網(wǎng)北京5月10日訊今日,上海期貨交易所日間盤... 更多>

        萍鄉(xiāng)市蘆溪縣全縣黨建融合工作現(xiàn)場

        每日熱議!李云澤同志任國家金融監(jiān)督

        民生銀行pos機(jī)刷卡手續(xù)費(fèi)標(biāo)準(zhǔn)_刷卡

        追蹤鯨魚在北極航行

        嚴(yán)查“靠電吃電”!這家央企,兩高

        道氏理論的主要內(nèi)容和缺陷_道氏理論

        世界觀點(diǎn):摩托羅拉Moto Razr 40

        青金石有哪些功效 文章為你講解清

        【環(huán)球報(bào)資訊】深圳本地股尾盤異動

        阿里巴巴戴珊:今年會在用戶規(guī)模上

        主站蜘蛛池模板: 国产一区二区在线影院| 久久综合九色综合桃花| 国产欧美成人一区二区A片| jlzzjlzz亚洲乱熟无码| 日本一本草久国产欧美日韩| 最新午夜不卡无码Av免费| 亚洲熟妇AV乱码在线观看| 最新高清无码专区| 加勒比一本HEYZO高清视频| 亚洲一级在线中文字幕| 四虎啪啪视频| 秘书在办公室被躁到高潮| 婷婷久久综合九色综合97| 亚洲精品久综合蜜| 久久综合热88| 国产97碰免费视频| 欧美激欧美啪啪片| 蜜桃成熟时在线播放| 国产免费不卡的在线视频| 给我免费的片观看| 欧美午夜精品一区二区蜜桃| 伦人伦XXX国产对白| 亚洲第一男人av无码网站| 亚洲人成网站999久久久综合| 色婷婷亚洲精品综合影院| 天堂av网一区二区三区 | 欧美精品综合视频一区二区| 免费在线无码视频| 欧美国产日韩在线三区| 曲周县| 2022韩国理伦片在线观看| 中文无码制服丝袜| 国产在线无码一区二区三区视频| 亚洲乱码成熟视频在线播放| www国产亚洲精品久久久| 亚洲精品国产中文字幕| 99久久精品日本一区二区免费| 久操资源站| 灌南县| 漂亮人妻洗澡被公强 日日躁| 久久久久久高清一级毛片免费 |