背景信息
內(nèi)容簡(jiǎn)介
在大模型時(shí)代,隨著模型效果的顯著提升,模型評(píng)測(cè)的重要性日益凸顯??茖W(xué)、高效的模型評(píng)測(cè),不僅能幫助開(kāi)發(fā)者有效地衡量和對(duì)比不同模型的性能,更能指導(dǎo)他們進(jìn)行精準(zhǔn)地模型選擇和優(yōu)化,加速AI創(chuàng)新和應(yīng)用落地。因此,建立一套平臺(tái)化的大模型評(píng)測(cè)最佳實(shí)踐愈發(fā)重要。
本文為PAI大模型評(píng)測(cè)最佳實(shí)踐,旨在指引AI開(kāi)發(fā)人員使用PAI平臺(tái)進(jìn)行大模型評(píng)測(cè)。借助本最佳實(shí)踐,您可以輕松構(gòu)建出既能反映模型真實(shí)性能,又能滿足行業(yè)特定需求的評(píng)測(cè)過(guò)程,助力您在人工智能賽道上取得更好的成績(jī)。最佳實(shí)踐包括如下內(nèi)容:
• 如何準(zhǔn)備和選擇評(píng)測(cè)數(shù)據(jù)集
• 如何選擇適合業(yè)務(wù)的開(kāi)源或微調(diào)后模型
• 如何創(chuàng)建評(píng)測(cè)任務(wù)并選擇合適的評(píng)價(jià)指標(biāo)
• 如何在單任務(wù)或多任務(wù)場(chǎng)景下解讀評(píng)測(cè)結(jié)果
平臺(tái)亮點(diǎn)
PAI大模型評(píng)測(cè)平臺(tái),適合您針對(duì)不同的大模型評(píng)測(cè)場(chǎng)景,進(jìn)行模型效果對(duì)比。例如:
• 不同基礎(chǔ)模型對(duì)比:Qwen2-7B-Instruct vs. Baichuan2-7B-Chat
• 同一模型不同微調(diào)版本對(duì)比:Qwen2-7B-Instruct 在私有領(lǐng)域數(shù)據(jù)下訓(xùn)練不同 epoch 版本效果對(duì)比
• 同一模型不同量化版本對(duì)比:Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8
考慮到不同開(kāi)發(fā)群體的特定需求,我們將以企業(yè)開(kāi)發(fā)者與算法研究人員兩個(gè)典型群體為例,探討如何結(jié)合常用的公開(kāi)數(shù)據(jù)集(如MMLU、C-eval等)與企業(yè)的自定義數(shù)據(jù)集,實(shí)現(xiàn)更全面準(zhǔn)確并具有針對(duì)性的模型評(píng)測(cè),查找適合您業(yè)務(wù)需求的大模型。最佳實(shí)踐的亮點(diǎn)如下:
• 端到端完整評(píng)測(cè)鏈路,無(wú)需代碼開(kāi)發(fā),支持主流開(kāi)源大模型,與大模型微調(diào)后的一鍵評(píng)測(cè);
• 支持用戶自定義數(shù)據(jù)集上傳,內(nèi)置10+通用NLP評(píng)測(cè)指標(biāo),一覽式結(jié)果展示,無(wú)需再開(kāi)發(fā)評(píng)測(cè)腳本;
• 支持多個(gè)領(lǐng)域的常用公開(kāi)數(shù)據(jù)集評(píng)測(cè),完整還原官方評(píng)測(cè)方法,雷達(dá)圖全景展示,省去逐個(gè)下載評(píng)測(cè)集和熟悉評(píng)測(cè)流程的繁雜;
• 支持多模型多任務(wù)同時(shí)評(píng)測(cè),評(píng)測(cè)結(jié)果圖表式對(duì)比展示,輔以單條評(píng)測(cè)結(jié)果詳情,方便全方位比較分析;
• 評(píng)測(cè)過(guò)程公開(kāi)透明,結(jié)果可復(fù)現(xiàn)。評(píng)測(cè)代碼開(kāi)源在與ModelScope共建的開(kāi)源代碼庫(kù)eval-scope中,方便細(xì)節(jié)查看與復(fù)現(xiàn):
https://github.com/modelscope/eval-scope
前提條件
• 已開(kāi)通PAI并創(chuàng)建了默認(rèn)工作空間。具體操作,請(qǐng)參見(jiàn)開(kāi)通PAI并創(chuàng)建默認(rèn)工作空間。
• 如果選擇自定義數(shù)據(jù)集評(píng)測(cè),需要?jiǎng)?chuàng)建OSS Bucket存儲(chǔ)空間,用來(lái)存放數(shù)據(jù)集文件。具體操作,請(qǐng)參見(jiàn)控制臺(tái)創(chuàng)建存儲(chǔ)空間。
使用費(fèi)用
• PAI大模型評(píng)測(cè)依托于PAI-快速開(kāi)始產(chǎn)品??焖匍_(kāi)始是PAI產(chǎn)品組件,集成了眾多AI開(kāi)源社區(qū)中優(yōu)質(zhì)的預(yù)訓(xùn)練模型,并且基于開(kāi)源模型支持零代碼實(shí)現(xiàn)從訓(xùn)練到部署再到推理的全部過(guò)程,給您帶來(lái)更快、更高效、更便捷的AI應(yīng)用體驗(yàn)。
• 快速開(kāi)始本身不收費(fèi),但使用快速開(kāi)始進(jìn)行模型評(píng)測(cè)時(shí),可能產(chǎn)生DLC評(píng)測(cè)任務(wù)費(fèi)用,計(jì)費(fèi)詳情請(qǐng)參見(jiàn)DLC計(jì)費(fèi)說(shuō)明。
• 如果選擇自定義數(shù)據(jù)集評(píng)測(cè),使用OSS存儲(chǔ),會(huì)產(chǎn)生相關(guān)費(fèi)用,計(jì)費(fèi)詳情請(qǐng)參見(jiàn)OSS計(jì)費(fèi)概述。
場(chǎng)景一:面向企業(yè)開(kāi)發(fā)者的自定義數(shù)據(jù)集評(píng)測(cè)
企業(yè)通常會(huì)積累豐富的私有領(lǐng)域數(shù)據(jù)。如何充分利用好這部分?jǐn)?shù)據(jù),是企業(yè)使用大模型進(jìn)行算法優(yōu)化的關(guān)鍵。因此,企業(yè)開(kāi)發(fā)者在評(píng)測(cè)開(kāi)源或微調(diào)后的大模型時(shí),往往會(huì)基于私有領(lǐng)域下積累的自定義數(shù)據(jù)集,以便于更好地了解大模型在私有領(lǐng)域的效果。
對(duì)于自定義數(shù)據(jù)集評(píng)測(cè),我們使用NLP領(lǐng)域標(biāo)準(zhǔn)的文本匹配方式,計(jì)算模型輸出結(jié)果和真實(shí)結(jié)果的匹配度,值越大,模型越好。使用該評(píng)測(cè)方式,基于自己場(chǎng)景的獨(dú)特?cái)?shù)據(jù),可以評(píng)測(cè)所選模型是否適合自己的場(chǎng)景。
以下將重點(diǎn)展示使用過(guò)程中的一些關(guān)鍵點(diǎn),更詳細(xì)的操作細(xì)節(jié),請(qǐng)參見(jiàn)模型評(píng)測(cè)產(chǎn)品文檔。
1. 準(zhǔn)備自定義評(píng)測(cè)集
1.1. 自定義評(píng)測(cè)集格式
1. 基于自定義數(shù)據(jù)集進(jìn)行評(píng)測(cè),需要提供JSONL格式的評(píng)測(cè)集文件
o 文件格式:使用question標(biāo)識(shí)問(wèn)題列,answer標(biāo)識(shí)答案列。
o 文件示例:llmuses_general_qa_test.jsonl
2. 符合格式要求的評(píng)測(cè)集,可自行上傳至OSS,并創(chuàng)建自定義數(shù)據(jù)集,詳情參見(jiàn)上傳OSS文件和創(chuàng)建及管理數(shù)據(jù)集。
1.2. 創(chuàng)建自定義評(píng)測(cè)集
1. 登錄PAI控制臺(tái)。
2. 在左側(cè)導(dǎo)航欄選擇AI資產(chǎn)管理>數(shù)據(jù)集,進(jìn)入數(shù)據(jù)集頁(yè)面
3. 單擊創(chuàng)建數(shù)據(jù)集
4. 填寫(xiě)創(chuàng)建數(shù)據(jù)集相關(guān)表單,從OSS中選擇您的自定義評(píng)測(cè)集文件
2. 選擇適合業(yè)務(wù)的模型
2.1. 查找開(kāi)源模型
1. 在PAI控制臺(tái)左側(cè)導(dǎo)航欄選擇快速開(kāi)始,進(jìn)入快速開(kāi)始頁(yè)面
2. 單擊快速開(kāi)始提供的模型分類信息,直接進(jìn)入到模型列表中,根據(jù)模型描述信息進(jìn)行查看。
3. 單擊進(jìn)入模型詳情頁(yè)后,對(duì)于可評(píng)測(cè)的模型,會(huì)展示評(píng)測(cè)按鈕。
a. 支持模型類型:當(dāng)前模型評(píng)測(cè)支持HuggingFace所有AutoModelForCausalLM類型的模型
2.2. 使用微調(diào)后的模型
1. 使用快速開(kāi)始進(jìn)行模型微調(diào),詳細(xì)步驟請(qǐng)參見(jiàn)模型部署及訓(xùn)練
2. 微調(diào)完成后,在快速開(kāi)始>任務(wù)管理>訓(xùn)練任務(wù)中,單擊訓(xùn)練好的任務(wù)名稱,進(jìn)入任務(wù)詳情頁(yè)后,對(duì)于可評(píng)測(cè)的模型,右上角會(huì)展示評(píng)測(cè)按鈕。
3. 創(chuàng)建評(píng)測(cè)任務(wù)
1. 在模型詳情頁(yè)右上角單擊評(píng)測(cè),創(chuàng)建評(píng)測(cè)任務(wù)
2. 在新建評(píng)測(cè)任務(wù)頁(yè)面,配置以下關(guān)鍵參數(shù)。
3. 任務(wù)創(chuàng)建成功后,將自動(dòng)分配資源,并開(kāi)始運(yùn)行。
4. 運(yùn)行完成后,任務(wù)狀態(tài)顯示為已成功。
4. 查看評(píng)測(cè)結(jié)果
4.1. 評(píng)測(cè)任務(wù)列表
1. 在快速開(kāi)始頁(yè)面,單擊搜索框左側(cè)的任務(wù)管理。
2. 在任務(wù)管理頁(yè)面,選擇模型評(píng)測(cè)標(biāo)簽頁(yè)。
4.2. 單任務(wù)結(jié)果
1. 在模型評(píng)測(cè)列表頁(yè),單擊評(píng)測(cè)任務(wù)的查看報(bào)告選項(xiàng),即可進(jìn)入評(píng)測(cè)任務(wù)詳情頁(yè)
2. 評(píng)測(cè)報(bào)告如下圖所示,選擇自定義數(shù)據(jù)集評(píng)測(cè)結(jié)果,將在雷達(dá)圖展示該模型在ROUGE和BLEU系列指標(biāo)上的得分。此外還會(huì)展示評(píng)測(cè)文件每條數(shù)據(jù)的評(píng)測(cè)詳情。
• rouge-n類指標(biāo)計(jì)算N-gram(連續(xù)的N個(gè)詞)的重疊度,其中rouge-1和rouge-2是最常用的,分別對(duì)應(yīng)unigram和bigram,rouge-l 指標(biāo)基于最長(zhǎng)公共子序列(LCS)。
• bleu (Bilingual evaluation Understudy) 是另一種流行的評(píng)估機(jī)器翻譯質(zhì)量的指標(biāo),它通過(guò)測(cè)量機(jī)器翻譯輸出與一組參考翻譯之間的N-gram重疊度來(lái)評(píng)分。其中bleu-n指標(biāo)計(jì)算n-gram的匹配度。
3. 最終評(píng)測(cè)結(jié)果會(huì)保存到您指定的OSS路徑中
4.3. 多任務(wù)對(duì)比
1. 當(dāng)需要對(duì)比多個(gè)模型的評(píng)測(cè)結(jié)果時(shí),可以將它們聚合在一個(gè)頁(yè)面上展示,以便于比較效果。
2. 具體操作為在模型評(píng)測(cè)任務(wù)列表頁(yè),左側(cè)選擇想要對(duì)比的模型評(píng)測(cè)任務(wù),右上角單擊對(duì)比,進(jìn)入對(duì)比頁(yè)面。
3. 自定義數(shù)據(jù)集評(píng)測(cè)對(duì)比結(jié)果
場(chǎng)景二:面向算法研究人員的公開(kāi)數(shù)據(jù)集評(píng)測(cè)
算法研究通常建立在公開(kāi)數(shù)據(jù)集上。研究人員在選擇開(kāi)源模型,或?qū)δP瓦M(jìn)行微調(diào)后,都會(huì)參考其在權(quán)威公開(kāi)數(shù)據(jù)集上的評(píng)測(cè)效果。然而,大模型時(shí)代的公開(kāi)數(shù)據(jù)集種類繁多,研究人員需要花費(fèi)大量時(shí)間調(diào)研選擇適合自己領(lǐng)域的公開(kāi)數(shù)據(jù)集,并熟悉每個(gè)數(shù)據(jù)集的評(píng)測(cè)流程。為方便算法研究人員,PAI接入了多個(gè)領(lǐng)域的公開(kāi)數(shù)據(jù)集,并完整還原了各個(gè)數(shù)據(jù)集官方指定的評(píng)測(cè)metrics,以便獲取最準(zhǔn)確的評(píng)測(cè)效果反饋,助力更高效的大模型研究。
在公開(kāi)數(shù)據(jù)集評(píng)測(cè)中,我們通過(guò)對(duì)開(kāi)源的評(píng)測(cè)數(shù)據(jù)集按領(lǐng)域分類,對(duì)大模型進(jìn)行綜合能力評(píng)估,例如數(shù)學(xué)能力、知識(shí)能力、推理能力等,值越大,模型越好,這種評(píng)測(cè)方式也是大模型領(lǐng)域最常見(jiàn)的評(píng)測(cè)方式。
以下將重點(diǎn)展示使用過(guò)程中的一些關(guān)鍵點(diǎn),更詳細(xì)的操作細(xì)節(jié),請(qǐng)參見(jiàn)模型評(píng)測(cè)產(chǎn)品文檔。
1. 支持的公開(kāi)數(shù)據(jù)集
目前PAI維護(hù)的公開(kāi)數(shù)據(jù)集包括MMLU、TriviaQA、HellaSwag、GSM8K、C-eval、CMMLU、TruthfulQA,其他公開(kāi)數(shù)據(jù)集陸續(xù)接中。
2. 選擇適合的模型
2.1. 查找開(kāi)源模型
1. 在PAI控制臺(tái)左側(cè)導(dǎo)航欄選擇快速開(kāi)始,進(jìn)入快速開(kāi)始頁(yè)面
單擊快速開(kāi)始提供的模型分類信息,直接進(jìn)入到模型列表中,根據(jù)模型描述信息進(jìn)行查看。
3. 單擊進(jìn)入模型詳情頁(yè)后,對(duì)于可評(píng)測(cè)的模型,會(huì)展示評(píng)測(cè)按鈕。
a. 支持模型類型:當(dāng)前模型評(píng)測(cè)支持HuggingFace所有AutoModelForCausalLM類型的模型
2.2. 使用微調(diào)后的模型
1. 使用快速開(kāi)始進(jìn)行模型微調(diào),詳細(xì)步驟請(qǐng)參見(jiàn)模型部署及訓(xùn)練
2. 微調(diào)完成后,在快速開(kāi)始>任務(wù)管理>訓(xùn)練任務(wù)中,單擊訓(xùn)練好的任務(wù)名稱,進(jìn)入任務(wù)詳情頁(yè)后,對(duì)于可評(píng)測(cè)的模型,右上角會(huì)展示評(píng)測(cè)按鈕。
3. 創(chuàng)建評(píng)測(cè)任務(wù)
1. 在模型詳情頁(yè)右上角單擊評(píng)測(cè),創(chuàng)建評(píng)測(cè)任務(wù)
2. 在新建評(píng)測(cè)任務(wù)頁(yè)面,配置以下關(guān)鍵參數(shù)。本文以MMLU數(shù)據(jù)集為例。
3. 任務(wù)創(chuàng)建成功后,將自動(dòng)分配資源,并開(kāi)始運(yùn)行。
4. 運(yùn)行完成后,任務(wù)狀態(tài)顯示為已成功。
4. 查看評(píng)測(cè)結(jié)果
4.1. 評(píng)測(cè)任務(wù)列表
1. 在快速開(kāi)始頁(yè)面,單擊搜索框左側(cè)的任務(wù)管理。
2. 在任務(wù)管理頁(yè)面,選擇模型評(píng)測(cè)標(biāo)簽頁(yè)。
4.2. 單任務(wù)結(jié)果
1. 在模型評(píng)測(cè)列表頁(yè),單擊評(píng)測(cè)任務(wù)的查看報(bào)告選項(xiàng),即可進(jìn)入評(píng)測(cè)任務(wù)詳情頁(yè)
2. 評(píng)測(cè)報(bào)告如下圖所示,選擇公開(kāi)數(shù)據(jù)集評(píng)測(cè)結(jié)果,將在雷達(dá)圖展示該模型在公開(kāi)數(shù)據(jù)集上的得分。
o 左側(cè)圖片展示了模型在不同領(lǐng)域的得分情況。每個(gè)領(lǐng)域可能會(huì)有多個(gè)與之相關(guān)的數(shù)據(jù)集,對(duì)屬于同一領(lǐng)域的數(shù)據(jù)集,我們會(huì)把模型在這些數(shù)據(jù)集上的評(píng)測(cè)得分取均值,作為領(lǐng)域得分。
o 右側(cè)圖片展示模型在各個(gè)公開(kāi)數(shù)據(jù)集的得分情況。每個(gè)公開(kāi)數(shù)據(jù)集的評(píng)測(cè)范圍詳見(jiàn)該數(shù)據(jù)集官方介紹。
3. 最終評(píng)測(cè)結(jié)果會(huì)保存到您指定的OSS路徑中
4.3. 多任務(wù)對(duì)比
1. 當(dāng)需要對(duì)比多個(gè)模型的評(píng)測(cè)結(jié)果時(shí),可以將它們?cè)诰酆显谝粋€(gè)頁(yè)面上展示,以便于比較效果。
2. 具體操作為在模型評(píng)測(cè)任務(wù)列表頁(yè),左側(cè)選擇想要對(duì)比的模型評(píng)測(cè)任務(wù),右上角單擊對(duì)比,進(jìn)入對(duì)比頁(yè)面。
3. 公開(kāi)數(shù)據(jù)集評(píng)測(cè)對(duì)比結(jié)果