阿里云PAI發(fā)布DeepRec Extension，打造穩(wěn)定高效的分布式訓練，并宣布開源！

2024-05-23 5407

核心提示：近日，阿里云人工智能平臺PAI正式發(fā)布自研的 DeepRec Extension（即 DeepRec 擴展），旨在以更低成本，更高效率進行稀疏模型的分布式訓練

近日，阿里云人工智能平臺PAI正式發(fā)布自研的 DeepRec Extension（即 DeepRec 擴展），旨在以更低成本，更高效率進行稀疏模型的分布式訓練。DeepRec Extension 在 DeepRec 訓練推理框架之上，圍繞大規(guī)模稀疏模型分布式訓練，創(chuàng)新性地從訓練任務的視角提出了自動彈性訓練和分布式容錯功能，進一步提升稀疏模型訓練的整體效率，助力 DeepRec 引擎在稀疏場景中發(fā)揮更大的優(yōu)勢。

DeepRec Extension 有效地解決了企業(yè)級場景大規(guī)模稀疏模型訓練中的難點。隨著業(yè)務發(fā)展，模型尺寸增長到百 GB / TB 量級，分布式訓練往往會遇到分布式建模接口復雜、資源預估困難且無法彈性、分布式容錯機制過于簡單和分布式環(huán)境復雜等問題，阻礙大尺寸模型高效、穩(wěn)定地完成訓練。DeepRec Extension 提供易用、高效、高性價比的框架，使得模型能夠便捷地在分布式環(huán)境中運行，切實解決上述問題。

DeepRec Extension 設計思路及整體架構(gòu)

DeepRec Extension 推出分布式訓練資源預估、自動彈性訓練、資源/計算圖監(jiān)控、自動備份容錯等功能，有效降低了大規(guī)模稀疏模型訓練的技術門檻和成本，同時提升了分布式訓練的效率和穩(wěn)定性。DeepRec Extension 簡化分布式訓練的工作流程，保障用戶聚焦于模型的構(gòu)建階段，更加專注于模型本身的創(chuàng)新與優(yōu)化，無需關注繁瑣的底層架構(gòu)配置。在性能提升方面，資源預估以及自動彈性訓練為用戶節(jié)約 20% ~ 60% 資源，在穩(wěn)定性方面，PS 發(fā)生異常后，模型 E2E 訓練吞吐提升 10%。

一直以來，大規(guī)模稀疏模型分布式訓練是備受關注的話題，阿里云人工智能平臺PAI正式將 DeepRec Extension 開源，與AI開發(fā)者共同打造更快更好的分布式訓練框架，全面助力AI大模型發(fā)展！

開源地址：https://github.com/DeepRec-AI/extension

分享到:

收藏 0

更多>同類資訊

免責申明

推薦資訊

點擊排行

最新資訊更多>

最新供應更多>

中國智能化網(wǎng)（zgznh^®）--引領工業(yè)智能化產(chǎn)業(yè)發(fā)展共享智能化+優(yōu)質(zhì)平臺

粵ICP備12078626號

深公網(wǎng)安備案證字第 4403101901094 號 | 粵公網(wǎng)安備 44030702001206號

• 阿里云受邀加入Elastic AI Ecosystem聯(lián)盟，助力	• 智能建造領軍企業(yè)獲國際智能建造可持續(xù)發(fā)展合作
• 高校AI通識課全面鋪開，老師率先“升級”迎接挑	• 第十九屆中博會圓滿落幕！五大關鍵詞解讀盛會成
• 未來之“光”：艾邁斯歐司朗引領汽車照明革新	• 發(fā)展新質(zhì)生產(chǎn)力，龍華區(qū)亮相第26屆高交會展示硬
• 深圳NEPCON電子展圓滿落幕，鐳晨科技新品備受矚	• Apache Spark & Paimon Meetup · 北京站，助力
• 電裝:推進碳中和,人才培養(yǎng)不計成本	• 從富士通到RAMXEED，以全新一代FeRAM迎接邊緣智

星秀直播官方版-星秀直播直播视频在线观看免费版下载-星秀直播安卓版本免费安装

阿里云PAI發(fā)布DeepRec Extension，打造穩(wěn)定高效的分布式訓練，并宣布開源！

阿里云PAI發(fā)布DeepRec Extension，打造穩(wěn)定高效的分布式訓練，并宣布開源！