亚州天堂爱爱,做爱视频国产全过程在线观看,成人试看30分钟免费视频,女人无遮挡裸交性做爰视频网站

? ? ?

如何加速大模型開發(fā)?技術(shù)方案拆解來了:昇思MindSpore技術(shù)一覽(升思科技)

隨著ChatGPT爆火出圈,狂飆之勢(shì)從22年底持續(xù)到23年初,與以往的技術(shù)突破不同的是,此次的大模型不僅被技術(shù)界關(guān)注,而且備受投資界、產(chǎn)業(yè)界和大眾消費(fèi)者的追捧,使它成為歷史上最快月活過億的現(xiàn)象級(jí)應(yīng)用,繼而引發(fā)全球科技巨頭的AI競(jìng)賽。

大模型的高智能化離不開對(duì)模型的大規(guī)模預(yù)訓(xùn)練,這背后需要強(qiáng)大的AI框架作底層支持。面對(duì)動(dòng)輒千億級(jí)參數(shù)的大模型,如何使能廣大開發(fā)者和用戶進(jìn)行開發(fā),在當(dāng)前大模型研究分秒必爭(zhēng)之時(shí)彎道超車?且讓我們順著大模型技術(shù)的方案拆解,一探昇思MindSpore AI框架的技術(shù)能力。

預(yù)訓(xùn)練大模型的開發(fā)之路

大規(guī)模預(yù)訓(xùn)練——GPT3與鵬程.盤古

2020年,OpenAI祭出了遠(yuǎn)超同期所有預(yù)訓(xùn)練模型的大殺器GPT3。憑借著1750億參數(shù)量,300B Token的預(yù)訓(xùn)練,GPT3展現(xiàn)出非常強(qiáng)悍的自然語言處理能力,包括:

  • 文本生成:根據(jù)Prompt來續(xù)寫(補(bǔ)全)句子。
  • 上下文學(xué)習(xí)(In-context Learning): 遵循給定任務(wù)的幾個(gè)示例,然后為新的測(cè)試用例生成解決方案。
  • 世界知識(shí)(World Knowledge): 包括事實(shí)性知識(shí)和常識(shí)。

此時(shí)與GPT3同量級(jí)的大規(guī)模預(yù)訓(xùn)練語言模型仍是國內(nèi)外難以逾越的大山。2021年4月,基于昇思MindSpore AI框架的多維度自動(dòng)混合并行能力,以鵬城實(shí)驗(yàn)室為首的聯(lián)合科研團(tuán)隊(duì)在大規(guī)模AI算力平臺(tái)鵬城云腦II上,訓(xùn)練出業(yè)界首個(gè)2000億參數(shù)、以中文為核心的預(yù)訓(xùn)練生成語言模型鵬程.盤古。聯(lián)合團(tuán)隊(duì)從開源開放數(shù)據(jù)集、common crawl網(wǎng)頁數(shù)據(jù)、電子書等收集了近80TB原始數(shù)據(jù),搭建了面向大型語料庫預(yù)處理的分布式集群,通過數(shù)據(jù)清洗過濾、去重、質(zhì)量評(píng)估等處理流程,構(gòu)建了一個(gè)約1.1TB大小的高質(zhì)量中文語料數(shù)據(jù)集,經(jīng)統(tǒng)計(jì)Token數(shù)量約為250B規(guī)模。

憑借著與GPT3相同量級(jí)的參數(shù)量,鵬程.盤古預(yù)訓(xùn)練模型擁有不遜于GPT3的上下文學(xué)習(xí)和世界知識(shí)能力。

如何加速大模型開發(fā)?技術(shù)方案拆解來了:昇思MindSpore技術(shù)一覽(升思科技)

△圖1 鵬程.盤古模型架構(gòu)

利用昇思MindSpore AI框架的自動(dòng)并行能力,開發(fā)者只需一行代碼就能實(shí)現(xiàn)模型自動(dòng)切分、分布式并行計(jì)算,省卻大量復(fù)雜設(shè)計(jì),在大集群上高效訓(xùn)練千億至萬億參數(shù)模型。關(guān)于昇思MindSpore的自動(dòng)并行能力,這里先按下不表,讓我們繼續(xù)看下一個(gè)技術(shù)要素。

思維鏈的必經(jīng)之路——Code預(yù)訓(xùn)練

思維鏈(Chain of Thoughs,即鏈?zhǔn)剿季S推理)是大模型能夠擁有擬人化對(duì)話能力的關(guān)鍵。在GPT3之后,思維鏈能力開始被認(rèn)為是通過few shot learning進(jìn)行激發(fā),后續(xù)有“l(fā)ets think step by step”的zero shot prompt進(jìn)一步觸發(fā)了該能力。但是此時(shí)的大模型仍舊僅限于在各類數(shù)據(jù)集上呈現(xiàn)弱思維鏈能力。

直到代碼數(shù)據(jù)的預(yù)訓(xùn)練模型出現(xiàn)并融入到自然語言預(yù)訓(xùn)練模型中,大模型的思維鏈接能力躍上新的臺(tái)階。下圖是OpenAI從GPT3以來的演進(jìn)路線圖。左側(cè)的分支是代碼大模型的持續(xù)演進(jìn),一直到code-davinci-002將LM和Code訓(xùn)練進(jìn)行融合,再加入instruct tuning,最終催生出耳熟能詳?shù)腃hatGPT。

如何加速大模型開發(fā)?技術(shù)方案拆解來了:昇思MindSpore技術(shù)一覽(升思科技)

△圖2 ChatGPT演進(jìn)路線

2022年9月,清華大學(xué)團(tuán)隊(duì)基于昇思MindSpore 1.7研發(fā)了CodeGeeX代碼預(yù)訓(xùn)練大模型,并使用鵬城實(shí)驗(yàn)室的大規(guī)模AI算力平臺(tái)(鵬城云腦II)進(jìn)行訓(xùn)練。CodeGeeX的訓(xùn)練語料由兩部分組成:第一部分是開源代碼數(shù)據(jù)集,The Pile與CodeParrot;第二部分是補(bǔ)充數(shù)據(jù),直接從GitHub開源倉庫中爬取PythonJava、C 代碼。整個(gè)代碼語料含有23種編程語言、總計(jì)1587億個(gè)標(biāo)識(shí)符(不含填充符)。

在開發(fā)與訓(xùn)練過程中,清華大學(xué)與昇思MindSpore團(tuán)隊(duì)深度合作,實(shí)現(xiàn)了一系列算子融合優(yōu)化,包括單元素算子融合、層歸一化算子融合、FastGelu與矩陣乘法融合、批量矩陣乘法與加法融合等, 為訓(xùn)練速度帶來了顯著提升。

撬動(dòng)人類的智慧——RLHF與PPO

ChatGPT令人震驚的能力在于其能夠真正擬人化地進(jìn)行對(duì)話,生成內(nèi)容更加符合人類的認(rèn)知和價(jià)值觀。在大模型已經(jīng)具備充足的世界知識(shí)、上下文學(xué)習(xí)能力和思維鏈能力的情況下,雖然可以在各大NLP數(shù)據(jù)集持續(xù)刷榜,但是仍舊存在一個(gè)問題——與人類的表達(dá)習(xí)慣差異巨大。而ChatGPT的前身InstructGPT,向我們展示了人類反饋加入模型訓(xùn)練的循環(huán)當(dāng)中,所能呈現(xiàn)的巨大改變,那就是RLHF(Reinforcement Learning from Human Feedback,即使用人類反饋強(qiáng)化學(xué)習(xí))。

RLHF技術(shù)主要分為如下4個(gè)步驟:

1) 無監(jiān)督預(yù)訓(xùn)練: 預(yù)訓(xùn)練一個(gè)語言模型如GPT-3。

2) 有監(jiān)督的微調(diào):生成一組Prompt,以及對(duì)每個(gè)Prompt的人類反饋。即一個(gè)由對(duì)組成的訓(xùn)練數(shù)據(jù)集。然后對(duì)預(yù)訓(xùn)練的模型進(jìn)行微調(diào)。

3) 訓(xùn)練“人類反饋”的獎(jiǎng)勵(lì)模型:建立一個(gè)獎(jiǎng)勵(lì)模型,對(duì)預(yù)訓(xùn)練語言模型輸出進(jìn)行評(píng)分。首先給定一組Prompt,機(jī)器生成對(duì)這些指令的Answer,并由人類對(duì)其質(zhì)量進(jìn)行評(píng)分或排名。使用這個(gè)數(shù)據(jù)集來訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型,為任何對(duì)輸出一個(gè)質(zhì)量分?jǐn)?shù)。

4) 訓(xùn)練一個(gè)基于獎(jiǎng)勵(lì)模型進(jìn)行優(yōu)化的強(qiáng)化學(xué)習(xí)策略。

下圖是RLHF的核心PPO算法的示意圖:

如何加速大模型開發(fā)?技術(shù)方案拆解來了:昇思MindSpore技術(shù)一覽(升思科技)

△圖3 PPO算法邏輯

針對(duì)RLHF所需的強(qiáng)化學(xué)習(xí)算法,昇思MindSpore進(jìn)行了布局,發(fā)布MindSpore Reinforcement Learning套件,為編寫強(qiáng)化學(xué)習(xí)算法提供了簡(jiǎn)潔的API抽象,將算法與部署和調(diào)度解耦;將強(qiáng)化學(xué)習(xí)算法轉(zhuǎn)換為一系列編譯后的計(jì)算圖,然后由昇思MindSpore AI框架在昇騰AI處理器、CPU、GPU上高效運(yùn)行。目前MindSpore Reinforcement Learning套件提供下述能力:

1) 提供豐富的強(qiáng)化學(xué)習(xí)算法:當(dāng)前已支持15 經(jīng)典強(qiáng)化學(xué)習(xí)算法,涵蓋Model-free/Model-based/Offline-RL/Imitation Learning,單智能體/多智能體,連續(xù)/離散動(dòng)作空間,Episodic/Non-Episodic等算法;接入Mujoco、MPE、StarCraft2、DeepMind Control等常用模擬環(huán)境。

2) 專注高性能訓(xùn)練:通過計(jì)算圖和ReplayBuffer加速、異步環(huán)境并行和高性能領(lǐng)域組件,已支持算法的平均吞吐率相比主流框架提升120%。

3) 支持大規(guī)模分式訓(xùn)練:通過將強(qiáng)化學(xué)習(xí)算法分割成多個(gè)數(shù)據(jù)流片段(Fragmented Dataflow Graphs),并映射到異構(gòu)設(shè)備上高效執(zhí)行,對(duì)比業(yè)界主流框架實(shí)現(xiàn)了3~5倍的性能提升。

昇思MindSpore使能大模型歷程

隨著AI技術(shù)的發(fā)展,預(yù)訓(xùn)練大模型成為世界各科技強(qiáng)國競(jìng)爭(zhēng)的焦點(diǎn)。預(yù)訓(xùn)練大模型率先在自然語言處理領(lǐng)域取得突破性的進(jìn)展,并迅速拓展到涉及圖像、視頻、圖形、語言等跨媒體推理的各類任務(wù)和大量的商業(yè)應(yīng)用之中,展現(xiàn)了巨大的發(fā)展?jié)摿ΑT谶^去的幾年,產(chǎn)業(yè)界基于昇思MindSpore先后發(fā)布了一系列有影響力的大模型,下圖為這些大模型的訓(xùn)練時(shí)間軸。

如何加速大模型開發(fā)?技術(shù)方案拆解來了:昇思MindSpore技術(shù)一覽(升思科技)

△圖4 昇思MindSpore大模型歷程

上圖模型結(jié)構(gòu)涉及Transformer Encoder、Transformer Decoder、MOE、乃至Clip與Diffusion,均基于昇思MindSpore AI框架訓(xùn)練。

昇思MindSpore具備豐富的并行能力,能輕松完成4096卡集群、萬億參數(shù)規(guī)模的訓(xùn)練任務(wù),因此支撐了國內(nèi)多個(gè)領(lǐng)域首發(fā)大模型的訓(xùn)練,這些大模型涉及知識(shí)問答、知識(shí)檢索、知識(shí)推理、閱讀理解、文本/視覺/語音多模態(tài)、生物制藥、遙感、代碼生成等。

大模型的底座——昇思MindSpore的分布式并行能力

在梳理完ChatGPT的技術(shù)方案和昇思MindSpore的大模型歷程之后,我們?cè)偕钊胝归_昇思MindSpore AI框架支撐一眾大模型的核心——分布式并行能力。

分布式訓(xùn)練

昇思MindSpore支持當(dāng)前主流的分布式訓(xùn)練范式并開發(fā)了一套自動(dòng)混合并行解決方案,提供以下關(guān)鍵技術(shù):

1)數(shù)據(jù)切片預(yù)處理:對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行任意維度切片后再導(dǎo)入到設(shè)備進(jìn)行訓(xùn)練;

2)算子級(jí)并行:對(duì)正向網(wǎng)絡(luò)中的每個(gè)算子都獨(dú)立建模,每個(gè)算子可以擁有不同的切分策略;

3)優(yōu)化器并行:將數(shù)據(jù)并行的參數(shù)副本切分到多個(gè)設(shè)備上,以節(jié)省內(nèi)存占用;

4)Pipeline并行:將神經(jīng)網(wǎng)絡(luò)中的計(jì)算圖切分成多個(gè)階段(Stage),再把階段映射到不同的設(shè)備上,使得不同設(shè)備去計(jì)算神經(jīng)網(wǎng)絡(luò)的不同部分;

5)MOE并行:為每個(gè)專家分配專門的計(jì)算任務(wù),不同的專家可以托管在不同的設(shè)備上;

6)多副本并行:在一個(gè)迭代步驟中,將一個(gè)訓(xùn)練batch拆分成多個(gè)micro-batch,將模型并行通信與計(jì)算進(jìn)行并發(fā);

7)異構(gòu)并行:將算子分配到異構(gòu)硬件上執(zhí)行,充分利用硬件資源,提升整體訓(xùn)練吞吐量;

8)正向重計(jì)算:在正向計(jì)算時(shí),不保存占用大量?jī)?nèi)存的中間輸出結(jié)果,而是保存占用少量?jī)?nèi)存的輸入;而在反向計(jì)算時(shí),根據(jù)輸入重新計(jì)算正向輸出,從而大大削減正向計(jì)算累積的內(nèi)存峰值;

9)全局內(nèi)存復(fù)用:對(duì)計(jì)算圖進(jìn)行靜態(tài)編譯尋優(yōu)得到最優(yōu)內(nèi)存復(fù)用策略;

相較于業(yè)界的深度學(xué)習(xí)框架或分布式并行框架,昇思MindSpore在分布式關(guān)鍵技術(shù)上,支持能力范圍廣、自動(dòng)化程度高、易用性好,具備如下優(yōu)勢(shì):

1)支持的模型類型更豐富(Transformer、超分圖像、推薦等),通用性更強(qiáng),而像業(yè)界Megatron框架則是面向Transformer定制的框架;

2)相同算力和網(wǎng)絡(luò)下,豐富的并行策略可實(shí)現(xiàn)更大的計(jì)算通信比,性能更優(yōu)(相同硬件平臺(tái)(V100、A100),性能超越Megatron 15%);

3)并行策略豐富,無需手動(dòng)切分,大模型開發(fā)和調(diào)優(yōu)效率優(yōu)于業(yè)界;

分布式推理

相較于訓(xùn)練,推理對(duì)計(jì)算性能的要求更高。如何在集群上實(shí)現(xiàn)高效快速的大模型推理,是目前各種框架研究的一個(gè)重點(diǎn)和難點(diǎn)。為了解決上述問題,昇思MindSpore提出了分布式推理 增量推理的解決方案,使用數(shù)據(jù)并行、模型并行、流水并行等多維度混合并在大集群上面進(jìn)行推理。此外,由于Transformer Decoder類自回歸語言模型,在傳統(tǒng)的推理模式下存在很多重復(fù)計(jì)算,昇思MindSpore提供的增量推理能力能夠省掉這些重復(fù)計(jì)算,增強(qiáng)推理效率。

如何加速大模型開發(fā)?技術(shù)方案拆解來了:昇思MindSpore技術(shù)一覽(升思科技)

△圖5 增量推理流程圖

如上圖所示,第一階段將使用完整輸入推理,保存當(dāng)前字(詞)對(duì)應(yīng)的向量。在第二階段,輸入僅為上一步推理得到的字(詞),然后將本步推理得到的向量與保存下來的前序向量拼接,作為本步推理的完整向量,得到本步的輸出字(詞)。重復(fù)以上兩個(gè)階段。

極簡(jiǎn)易用的大模型訓(xùn)練——大模型套件

在現(xiàn)有的大模型開發(fā)過程中,用戶經(jīng)常會(huì)發(fā)現(xiàn)SOTA基礎(chǔ)模型代碼非模塊化從而影響進(jìn)一步的創(chuàng)新開發(fā)。不僅如此,用戶在模型實(shí)現(xiàn)中,經(jīng)常找不到對(duì)應(yīng)的SOTA模型以及相應(yīng)的下游任務(wù),從而加長了開發(fā)周期,影響論文或項(xiàng)目的進(jìn)度。為了解決這些痛點(diǎn),基于昇思MindSpore的大模型套件——MindSpore Transformers應(yīng)聲而出。

MindSpore Transformers是基于昇思MindSpore的深度學(xué)習(xí)大模型開發(fā)套件,其目標(biāo)是構(gòu)建一個(gè)大模型訓(xùn)練、微調(diào)、評(píng)估、推理、部署的全流程開發(fā)套件。套件覆蓋了CV、NLP等AIGC的熱門領(lǐng)域,提供模型生命周期中的全流程快速開發(fā)能力,支持開箱即用,并具有四個(gè)特點(diǎn):

  • MindSpore Transformers中提供了非常豐富的預(yù)置模型,包含了當(dāng)下典型的預(yù)訓(xùn)練大模型(Bert、T5、VIT等),涵蓋當(dāng)下CV、NLP等AIGC的熱門領(lǐng)域。同時(shí),套件也包含了豐富的下游微調(diào)任務(wù),精度與SOTA基本持平。
  • MindSpore Transformers中提供了統(tǒng)一的開發(fā)范式。套件開放了Trainer、pipeline等特性接口,實(shí)現(xiàn)模塊化、配置化的開發(fā),大大提高典型模型(尤其是基于transformer結(jié)構(gòu)的網(wǎng)絡(luò))的開發(fā)效率。模型部署方面, 套件支持昇騰AI基礎(chǔ)軟硬件平臺(tái),提供了一鍵云上部署接口。
  • MindSpore Transformers提供了統(tǒng)一的對(duì)外接口。在現(xiàn)有版本中,套件和業(yè)界流行的Huggingface 接口保持一致,用戶可以一鍵切換,從而極大地降低代碼遷移的成本。
  • MindSpore Transformers套件天然包含昇思MindSpore AI框架自身優(yōu)勢(shì),包含多維度并行(模型并行、流水線并行、優(yōu)化器并行、多副本并行等)、圖算融合等能力,可以在模型訓(xùn)練時(shí)有效地提升內(nèi)存使用效率和速度,幫助用戶快速訓(xùn)練百億、千億甚至是萬億級(jí)別的模型。

如何加速大模型開發(fā)?技術(shù)方案拆解來了:昇思MindSpore技術(shù)一覽(升思科技)

△圖6 MindSpore Transformers 架構(gòu)圖

通過以上技術(shù)拆解和案例可以看出,昇思MindSpore發(fā)展至今,已經(jīng)具備了支持大模型開發(fā)所需的各項(xiàng)核心技術(shù),同時(shí)提供了一整套高效、易用的大模型使能套件,形成了端到端的使能大模型開發(fā)能力。昇思MindSpore AI框架為助力大模型創(chuàng)新、繁榮AI產(chǎn)業(yè)生態(tài)鋪就了一條信心之路。

如何加速大模型開發(fā)?技術(shù)方案拆解來了:昇思MindSpore技術(shù)一覽(升思科技)

△圖7 昇思MindSpore原生支持大模型的能力優(yōu)勢(shì)

歡迎使用昇思MindSporeAI框架:
https://mindspore.cn/
https://gitee.com/mindspore/mindformers

引用:
[1]Zeng W, Ren X, Su T, et al. Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation[J]. arXiv preprint arXiv:2104.12369
[2]https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756
[3]https://huggingface.co/blog/rlhf
[4] https://aijishu.com/a/1060000000222564
[5]https://gitee.com/mindspore/mindformers/wikis/特性設(shè)計(jì)文檔

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。

(0)
上一篇 2023年3月21日 上午10:58
下一篇 2023年3月21日 上午11:14

相關(guān)推薦