今天是 OneFlow 開源的第 903 天,OneFlow v0.9.0 正式發(fā)布。本次更新包含 640 個(gè) commit,完整更新列表請(qǐng)查看鏈接:https://github.com/Oneflow-Inc/oneflow/releases/tag/v0.9.0,歡迎下載體驗(yàn)新版本,期待你的反饋。
OneFlow v0.9.0?主要包括以下新增亮點(diǎn)功能和優(yōu)化:
1. PyTorch 兼容性
(相關(guān)資料圖)
OneFlow 對(duì) PyTorch API 和 模型的兼容性進(jìn)一步提升。新增與 PyTorch 對(duì)齊的 86 個(gè) API 接口 和 算子, 修復(fù)了 104 個(gè)算子兼容性相關(guān)的 bug。支持更多的 PyTorch 模型一鍵遷移成 OneFlow 模型,并獲得性能加速。
支持 Stable Diffusion、GLM、YOLOv5等模型一鍵遷移為 OneFlow 模型
oneflow.load?支持直接加載?torch.save?的模型,模型遷移更方便
新增?oneflow.mock_torch?模塊 與?mock?方法(https://docs.oneflow.org/master/cookies/oneflow_torch.html),可以在不改變 PyTorch 的原始腳本的情況下,一鍵遷移包含多個(gè)腳本的復(fù)雜 PyTorch 模型。
2. 分布式編程易用性
Global Tensor 新增一系列方便分布式編程的接口與方法,并且修復(fù)了已知的相關(guān) bug。
3. 支持自動(dòng)并行
Graph 發(fā)布自動(dòng)并行新特性(version 1) , 支持在指定 Placement 下自動(dòng)搜索速度最快的 SBP 組合,使用 Global Tensor 編寫分布式模型無需糾結(jié)是數(shù)據(jù)并行、模型并行還是混合并行。
文檔參見:https://oneflow.readthedocs.io/en/master/auto_parallel.html
4. 性能優(yōu)化
Graph 新增一系列與內(nèi)存、執(zhí)行速度、流水掩蓋、編譯速度相關(guān)的優(yōu)化,提升性能,降低顯存開銷。
新增一系列算子優(yōu)化與系統(tǒng)優(yōu)化, 包括 Eager 的指令調(diào)度、高性能 CUDA kernel 、多內(nèi)存池打通 等。
相比原始的基于 PyTorch、DeepSpeed、Apex 的 GLM 實(shí)現(xiàn),基于OneFlow v0.9.0 訓(xùn)練GLM-large(335M)?預(yù)訓(xùn)練模型,在簡(jiǎn)單調(diào)優(yōu)后性能最高提升 3 倍,顯存節(jié)省 1/3。
而在 Stable Diffusion 推理的性能表現(xiàn)上,在 A100 顯卡,無論是 PCIe 40GB 還是 SXM 80GB 的配置,相比其他深度學(xué)習(xí)框架或編譯器,OneFlow?的性能都是最快的。
5. 調(diào)試功能
Graph 提供一系列輔助調(diào)試的功能,包括:內(nèi)存分析日志、編譯階段進(jìn)度顯示、計(jì)算圖展示等。
6. IR
OneFlow IR 支持 JIT 編譯 LR 代碼、分布式描述 SBP signature 以及新增 OKL Dialect 等更多編譯優(yōu)化功能。
7. OneFlow-ONNX 工具
OneFlow-ONNX?v0.6.0 版本發(fā)布,提升了轉(zhuǎn)換接口的易用性,開發(fā)了多個(gè)新的特性,并新增支持?6 種模型以及 20 余種 Op,以及修復(fù) 6 個(gè)轉(zhuǎn)換過程中的 bug。pip install oneflow-onnx==0.6.0?一鍵安裝使用?。
倉(cāng)庫(kù)地址:https://github.com/Oneflow-Inc/oneflow_convert
8. 報(bào)錯(cuò)信息提示
報(bào)錯(cuò)信息提示更加友好,支持高亮顯示報(bào)錯(cuò)內(nèi)容,簡(jiǎn)化大量系統(tǒng)內(nèi)部信息細(xì)節(jié),可以直觀地了解出錯(cuò)的位置和類型。
完整版 OneFlow v0.9.0 更新內(nèi)容請(qǐng)查看:https://github.com/Oneflow-Inc/oneflow/releases/tag/v0.9.0
感謝以下貢獻(xiàn)者:
liujuncheng, BBuf, wyg1997, jackalcooper, Flowingsun007, clackhan, daquexian, marigoold, lixinqi, guo-ran, hjchen2, strint, ouyangyu, MARD1NO, small1945, reygu, Ldpe2G, leaves-zwx, Yipeng1994, zhongshsh, lixiang007666, mosout, chengtbf, hhhfccz, doombeaker, howin98, xiacijie, farmerzhang1, shangguanshiyuan, JasonChen9, liufengwei0103, youxiudeshouyeren, laoliu97, EsdeathYZH, rejoicesyc, AsakusaRinne, LijunZhang01, Chenqll, xiezipeng-ML, simonJJJ, ShawnXuan ?
其他人都在看
2023年AI十大展望:GPT-4領(lǐng)銜大模型變革
李白:你的模型權(quán)重很不錯(cuò),可惜被我沒收了
OpenAI掌門Sam Altman:AI下一個(gè)發(fā)展階段
比快更快,開源Stable Diffusion刷新作圖速度
OneEmbedding:單卡訓(xùn)練TB級(jí)推薦模型不是夢(mèng)
GLM訓(xùn)練加速:性能最高提升3倍,顯存節(jié)省1/3
“零”代碼改動(dòng),靜態(tài)編譯讓太乙Stable Diffusion推理速度翻倍
?