近日,阿里云人工智能平臺 PAI 順利通過中國信通院組織的 ITU-T AICP-GA(Technical Specification for Artificial Intelligence Cloud Platform:General Architecture)國際標(biāo)準(zhǔn)和《智算工程平臺能力要求》國內(nèi)標(biāo)準(zhǔn)一致性測評,成為國內(nèi)首家通過該標(biāo)準(zhǔn)的企業(yè)。阿里云人工智能平臺 PAI 參與完成了智算安全、AI 能力中心、數(shù)據(jù)工程、模型開發(fā)訓(xùn)練、模型推理部署等全部八個能力域,共計220余個用例的測試,并100%通過測試要求,獲得了 ITU 國際標(biāo)準(zhǔn)和國內(nèi)可信云標(biāo)準(zhǔn)評估通過雙證書。
ITU-T F.AICP 系列標(biāo)準(zhǔn)作為國內(nèi)唯一在 ITU-T SG16 立項的人工智能云平臺技術(shù)規(guī)范,能夠客觀衡量企業(yè)人工智能云平臺產(chǎn)品的能力,指導(dǎo)企業(yè)構(gòu)建人工智能云平臺服務(wù)規(guī)范,為用戶選擇人工智能云產(chǎn)品提供參考。同時,《智算工程平臺能力要求》作為人工智能云平臺領(lǐng)域上與國際標(biāo)準(zhǔn)相同步、并相互兼容與認(rèn)可的標(biāo)準(zhǔn)規(guī)范,是企業(yè)人工智能云平臺產(chǎn)品在國內(nèi)應(yīng)用的重要指導(dǎo)。
阿里云人工智能平臺 PAI 產(chǎn)品介紹
阿里云人工智能平臺 PAI(Platform for AI)是面向企業(yè)客戶及開發(fā)者的一站式 AI 平臺,提供模型開發(fā)平臺、模型訓(xùn)練服務(wù)、以及模型推理服務(wù),包括 PAI-iTag 智能標(biāo)注、PAI-FeatureStore 特征存儲、PAI-DSW 交互式建模、PAI-Designer 可視化建模、PAI-DLC 分布式訓(xùn)練、以及 PAI-EAS 在線部署、PAI-Blade 推理加速等功能模塊,涵蓋 AI 開發(fā)的完整流程。PAI 還提供場景化最佳實踐 QuickStart 和行業(yè)領(lǐng)域 AIGC 工具 ArtLab。
1. 模型開發(fā)平臺:PAI-DSW 交互式建模、PAI-Deigner 可視化建模
PAI-DSW(Data Science Workshop)是為算法開發(fā)者量身打造的交互式云端開發(fā) IDE,支持 Copilot 輔助編程,提供豐富的異構(gòu)計算資源,預(yù)置多種開源框架的鏡像,支持實例的生命周期管理。提供海量前沿案例,以 Notebook 的形式提供熱門場景的最佳實踐,如 Stable Diffusion、Llama2、通義千問系列大模型等。
PAI-Designer 是 PAI 產(chǎn)品基于云原生架構(gòu)和工作流引擎開發(fā)的可視化建模工具,提供端到端的機器學(xué)習(xí)全鏈路開發(fā)環(huán)境,內(nèi)置豐富且成熟的機器學(xué)習(xí)算法,覆蓋商品推薦、金融風(fēng)控及廣告預(yù)測等場景,滿足不同方向的業(yè)務(wù)需求。
2. 模型訓(xùn)練服務(wù):PAI-DLC 大規(guī)模分布式任務(wù)
分布式訓(xùn)練 PAI-DLC(Deep Learning Containers)是基于云原生的 AI 訓(xùn)練平臺,為開發(fā)者和企業(yè)提供靈活、穩(wěn)定、易用和高性能的機器學(xué)習(xí)訓(xùn)練環(huán)境。
• 極致的易用性:
PAI 提供 Serverless 分布式任務(wù),無需搭建各種集群,可以直接提交 Megatron, Deepspeed, Pytorch, Tensorflow, Slurm, Ray, MPI 等十多種訓(xùn)練框架的任務(wù)。支持競價任務(wù)模式(Spot),具備分布式任務(wù)異構(gòu)算力、多級 Quota 管理、任務(wù)形態(tài)混合運行、任務(wù)無感切換等能力。
• 極致的穩(wěn)定:
自研的容錯引擎 AIMaster、高性能 Checkpoint 框架 EasyCKPT、健康檢測 SanityCheck 以及節(jié)點自愈功能,有效解決多種穩(wěn)定性問題。具備快速探查、準(zhǔn)確感應(yīng)與快速反饋的能力,有效降低算力損失,提升訓(xùn)練穩(wěn)定性。
• 極致的性能:
自研 AI 訓(xùn)練加速框架,實現(xiàn)統(tǒng)一數(shù)據(jù)并行、流水并行、算子拆分以及嵌套的并行加速策略。通過并行策略自動探索和多維度顯存優(yōu)化,結(jié)合高速網(wǎng)絡(luò)的拓?fù)涓兄{(diào)度,以及通信線程池、梯度分組融合、混合精度通信、梯度壓縮等分布式通信庫的優(yōu)化,提升分布式訓(xùn)練效率。
3. 模型推理服務(wù):PAI-EAS 模型部署與在線服務(wù)、PAI-Blade 推理加速
模型在線服務(wù) PAI-EAS(Elastic Algorithm Service)是 PAI 產(chǎn)品為實現(xiàn)一站式模型開發(fā)部署應(yīng)用,針對在線推理場景提供的模型在線服務(wù),在全球范圍內(nèi)16個 Region 提供服務(wù),集群規(guī)模超過10萬卡量級。
• 一站式快速部署:
支持實時在線服務(wù)、近實時異步推理、離線批量推理等多種任務(wù)類型,支持一鍵壓測、灰度發(fā)布、監(jiān)控報警等模型部署能力,支持場景化和模版化部署(例如 LLM,ComfyUI 視頻生成,RAG 對話系統(tǒng)等)。
• 全方位的性價比:
通過彈性擴縮容、定時擴縮容、彈性資源池等實現(xiàn)高效的集群資源調(diào)度,達到整體降本增效。通過搶占型實例資源、GPU 資源共享、Serverless 模型服務(wù)等方式大幅降低部署成本最高達90%。
• 深度的優(yōu)化加速:
通過推理優(yōu)化引擎 PAI-BladeLLM,綜合 BlaDNN 高性能算子、量化、 PD 分離的分布式推理、prompt cache 緩存優(yōu)化等技術(shù),降低首包時延 (TTFT) 60%+、降低 token 輸出時延 (TPOT) 70%+、提升推理吞吐80%+。
4. 場景化最佳實踐:PAI-QuickStart、PAI-ArtLab
PAI-QuickStart 整合了 Model Gallery 模型廣場、Notebook Gallery 案例資源等,集成豐富的預(yù)訓(xùn)練模型(LLM、CV、NLP、語音),提供一站式零代碼、低門檻的模型一鍵微調(diào)、部署、評測能力,快速幫助用戶上手 AI 開發(fā)。
PAI-ArtLab 提供了行業(yè)化的 AIGC 解決方案,為沒有 AI 技術(shù)背景的行業(yè)開發(fā)者提供了開箱即用的低代碼化的 AI 開發(fā)工具鏈,降低了 AI 開發(fā)的門檻。
5. AI 與大數(shù)據(jù)一體化:智能標(biāo)注 PAI-iTag、多種場景數(shù)據(jù)處理、AI 血緣全鏈路追溯等
PAI-iTAG 是智能化數(shù)據(jù)標(biāo)注平臺,支持圖像、文本、視頻、音頻等多種數(shù)據(jù)類型的標(biāo)注以及多模態(tài)的混合標(biāo)注,提供了豐富的標(biāo)注內(nèi)容組件,支持 AI 賦能的自動標(biāo)注以及豐富的預(yù)置模版。PAI 構(gòu)建了 AI 資產(chǎn)全鏈路數(shù)據(jù)服務(wù)體系,具備全生命周期數(shù)據(jù)管理、多模態(tài)數(shù)據(jù)清洗、多模態(tài)數(shù)據(jù)分析、智能化數(shù)據(jù)標(biāo)注和增強等能力,并提供全局的模型和數(shù)據(jù)血緣追溯能力。
6. 企業(yè)級能力:工作空間與權(quán)限管理、資源與資產(chǎn)管理、安全與可信 AI 等
PAI 平臺提供全方位的企業(yè)級能力,能高效解決企業(yè)內(nèi)部 AI 計算資源、開發(fā)人員、權(quán)限、AI 資產(chǎn)之間的關(guān)系,創(chuàng)建生產(chǎn)級的高質(zhì)量模型及應(yīng)用。PAI 平臺支持可信 AI 模塊,具備毒性數(shù)據(jù)清洗、算法公平性/錯誤性識別、機密計算容器、不當(dāng)推理內(nèi)容攔截等功能,保障模型和數(shù)據(jù)安全。