編譯/VR陀螺
開發(fā)下一代高級(jí)人工智能需要功能更強(qiáng)大,每秒運(yùn)算可達(dá)50億次的計(jì)算機(jī)。
1月24日,Meta宣布已設(shè)計(jì)并構(gòu)建了新的AI超級(jí)計(jì)算機(jī)AI Research SuperCluster (RSC),Meta稱他們相信這是當(dāng)今運(yùn)行速度最快的AI超級(jí)計(jì)算機(jī)之一,待2022年年中完全建成后,RSC還會(huì)成為世界上最快的AI超級(jí)計(jì)算機(jī)。
據(jù)了解,Meta的研究人員已經(jīng)開始使用RSC來訓(xùn)練用于研究自然語言處理(NLP)和計(jì)算機(jī)視覺的大型模型,其目標(biāo)是計(jì)劃在一天內(nèi)訓(xùn)練具有數(shù)萬億參數(shù)的模型。
RSC將幫助Meta的AI研究人員構(gòu)建可以從數(shù)萬億個(gè)示例中學(xué)習(xí)的AI模型,它能跨數(shù)百種不同語言工作,無縫分析文本、圖像和視頻,開發(fā)新的AR工具等等。
研究人員將能夠訓(xùn)練開發(fā)先進(jìn)人工智能比如計(jì)算機(jī)視覺、自然語言處理、語音識(shí)別等所需的最大模型。借助RSC構(gòu)建全新的AI系統(tǒng),該系統(tǒng)將能夠做到比如為一群人提供實(shí)時(shí)語音翻譯,讓每個(gè)人都說不同的語言,這樣便可以在研究項(xiàng)目上無縫協(xié)作或一起玩AR游戲。
最終,使用RSC完成的工作為構(gòu)建下一代主要計(jì)算平臺(tái)——元宇宙所需的技術(shù)鋪平道路。人工智能驅(qū)動(dòng)的應(yīng)用程序和產(chǎn)品將會(huì)在元宇宙中扮演重要角色。
(圖源:ai.facebook)
Meta對(duì)建立RSC的原因及相關(guān)細(xì)節(jié)進(jìn)行了解釋說明。
1、我們?yōu)楹涡枰绱舜竽P偷某?jí)計(jì)算機(jī)?
自2013年創(chuàng)建Facebook AI Research lab以來,Meta一直致力于人工智能的長期投資。近年來,我們基于多個(gè)領(lǐng)域的領(lǐng)先地位,在人工智能領(lǐng)域取得了長足的進(jìn)步,包括自我監(jiān)督學(xué)習(xí),算法可以從大量未標(biāo)記的示例中進(jìn)行學(xué)習(xí)并進(jìn)行轉(zhuǎn)換,以允許AI模型通過專注其輸入的某些領(lǐng)域來進(jìn)行更有效的推斷。
(圖源:ai.facebook)
為了充分實(shí)現(xiàn)自我監(jiān)督學(xué)習(xí)與基于轉(zhuǎn)換器的模型的功用,無論是視覺、語音、語言,還是其他重要用途比如識(shí)別有害內(nèi)容等等,都會(huì)需要更大型、更復(fù)雜,以及適應(yīng)性更強(qiáng)的模型。
例如計(jì)算機(jī)視覺需要以更高的數(shù)據(jù)采樣率處理更大、更長的視頻,語音識(shí)別需要即使在背景噪音大的挑戰(zhàn)性場景(比如派對(duì)或音樂會(huì))也能很好的工作,NLP也需要理解更多的語言、方言和口音。除此之外,RSC在其他領(lǐng)域比如機(jī)器人技術(shù)、具身AI、多模式AI等,都能幫助人們?cè)诂F(xiàn)實(shí)世界中完成有價(jià)值的任務(wù)。
高性能計(jì)算基礎(chǔ)設(shè)施是訓(xùn)練此類大型模型的關(guān)鍵組成部分,Meta 的 AI 研究團(tuán)隊(duì)多年來一直在構(gòu)建這些高性能系統(tǒng)。我們于2017年設(shè)計(jì)出第一代的基礎(chǔ)設(shè)施,單個(gè)集群中擁有 22,000 個(gè) NVIDIA V100 Tensor Core GPU,每天執(zhí)行 35,000 個(gè)訓(xùn)練作業(yè)?,F(xiàn)在,該基礎(chǔ)設(shè)施在性能、可靠性和生產(chǎn)力方面為 Meta 的研究人員設(shè)定了標(biāo)準(zhǔn)。
2020年初,我們決定采用最佳方式,也就是從頭開始設(shè)計(jì)新的計(jì)算基礎(chǔ)架構(gòu),以利用新的 GPU 和網(wǎng)絡(luò)結(jié)構(gòu)技術(shù)。我們希望這個(gè)基礎(chǔ)設(shè)施能夠在 1 艾字節(jié)(exabyte)大的數(shù)據(jù)集上訓(xùn)練具有超過一萬億個(gè)參數(shù)的模型——從規(guī)模上看,這相當(dāng)于 36,000 年的高質(zhì)量視頻。
盡管高性能計(jì)算社區(qū)幾十年來一直在處理規(guī)模問題,但我們還必須確保擁有所有必要的安全和隱私控制措施,以保護(hù)我們使用的任何訓(xùn)練數(shù)據(jù)。與我們之前僅利用開源和其他公開可用數(shù)據(jù)集的 AI 研究基礎(chǔ)設(shè)施不同,RSC 還通過允許我們?cè)谀P陀?xùn)練中包含來自 Meta 生產(chǎn)系統(tǒng)的真實(shí)示例,幫助我們確保我們的研究有效地轉(zhuǎn)化為實(shí)踐。
能夠幫助推進(jìn)以及執(zhí)行下游任務(wù),例如識(shí)別我們平臺(tái)上的有害內(nèi)容以及具身AI、多模式人工智能,以及幫助改善應(yīng)用的用戶體驗(yàn)。我們相信這是第一次在如此大的規(guī)模下解決性能、可靠性、安全性和隱私問題。
2、RSC的引擎
AI超級(jí)計(jì)算機(jī)是通過將多個(gè)GPU組合成計(jì)算節(jié)點(diǎn)構(gòu)建,再通過高性能網(wǎng)絡(luò)結(jié)構(gòu)連接這些計(jì)算節(jié)點(diǎn),以實(shí)現(xiàn)這些GPU之間的快速通信。
(圖源:ai.facebook)
現(xiàn)在,RSC 共有 760 個(gè) NVIDIA DGX A100 系統(tǒng)作為其計(jì)算節(jié)點(diǎn),總共有 6,080 個(gè) GPU — 每個(gè) A100 GPU 都比我們之前系統(tǒng)中使用的 V100 更強(qiáng)大。每個(gè) DGX 通過沒有超額訂閱的 NVIDIA Quantum 1600 Gb/s InfiniBand 兩級(jí) Clos 結(jié)構(gòu)進(jìn)行通信。RSC 的存儲(chǔ)層具有 175 PB 的 Pure Storage FlashArray、46 PB 的 Penguin Computing Altus 系統(tǒng)中的緩存存儲(chǔ)和 10 PB 的 Pure Storage FlashBlade。
與 Meta 的傳統(tǒng)生產(chǎn)和研究基礎(chǔ)設(shè)施相比,RSC 的早期基準(zhǔn)測試表明,它運(yùn)行計(jì)算機(jī)視覺工作流程的速度高達(dá) 20 倍,運(yùn)行 NVIDIA 集體通信庫 (NCCL) 的速度超過 9 倍,訓(xùn)練大規(guī)模 NLP 模型則快三倍。這意味著一個(gè)擁有數(shù)百億參數(shù)的模型可以在三周內(nèi)完成訓(xùn)練,而之前是九周。
(圖源:ai.facebook)
3、構(gòu)建一個(gè)AI超計(jì)算機(jī)......
設(shè)計(jì)和構(gòu)建 RSC 不僅僅是性能問題,而是需要使用當(dāng)今最先進(jìn)的技術(shù)實(shí)現(xiàn)盡可能大的性能。 RSC 完成后,InfiniBand 網(wǎng)絡(luò)結(jié)構(gòu)將連接 16,000 個(gè) GPU 作為端點(diǎn),使其成為迄今為止部署的最大此類網(wǎng)絡(luò)之一。此外,我們?cè)O(shè)計(jì)了一個(gè)緩存和存儲(chǔ)系統(tǒng),可以提供 16 TB/s 的訓(xùn)練數(shù)據(jù),我們計(jì)劃將其擴(kuò)展到 1 EB。
所有這些基礎(chǔ)設(shè)施都必須非??煽浚覀児烙?jì)一些實(shí)驗(yàn)可能會(huì)運(yùn)行數(shù)周并需要數(shù)千個(gè) GPU。最后,使用 RSC 的整個(gè)體驗(yàn)必須對(duì)研究人員友好,以便我們的團(tuán)隊(duì)可以輕松探索各種 AI 模型。
之所以能實(shí)現(xiàn)這一目標(biāo),很大程度上要?dú)w功于與許多長期合作伙伴的合作,他們都在 2017 年幫助設(shè)計(jì)了我們的第一代 AI 基礎(chǔ)設(shè)施。SGH 公司 Penguin Computing 是我們的架構(gòu)和托管服務(wù)合作伙伴,與我們的硬件集成運(yùn)營團(tuán)隊(duì)部署集群并幫助設(shè)置控制平面的主要部分。 Pure Storage 為我們提供了強(qiáng)大且可擴(kuò)展的存儲(chǔ)解決方案。 NVIDIA 為我們提供了其 AI 計(jì)算技術(shù),包括尖端系統(tǒng)、GPU 和 InfiniBand 結(jié)構(gòu),以及用于集群的 NCCL 等軟件堆棧組件。
4、大流行所帶來的工作挑戰(zhàn)
RSC在開發(fā)過程中也出現(xiàn)了意想不到的挑戰(zhàn)——新冠狀病毒大流行。RSC 最初是一個(gè)完全遠(yuǎn)程的項(xiàng)目,團(tuán)隊(duì)在大約一年半的時(shí)間里從一個(gè)簡單的共享文檔變成了一個(gè)正常運(yùn)行的集群。 COVID-19 和全行業(yè)的晶圓供應(yīng)限制也帶來了供應(yīng)鏈問題,這使得從芯片到光學(xué)元件和 GPU 等組件,甚至是建筑材料的所有東西都難以獲得——所有這些都必須按照新的安全協(xié)議進(jìn)行運(yùn)輸。
(圖源:ai.facebook)
為了有效地構(gòu)建這個(gè)集群,我們必須從頭開始設(shè)計(jì),創(chuàng)建許多全新的特定于Meta的公約,并在此過程中重新考慮以前的公約。我們必須圍繞我們的數(shù)據(jù)中心設(shè)計(jì)制定新規(guī)則——包括冷卻、電源、機(jī)架布局、布線和網(wǎng)絡(luò)(包括全新的控制平面),以及其他重要考慮因素。我們必須確保所有團(tuán)隊(duì),從建筑到硬件,再到軟件和人工智能,都在與我們的合作伙伴協(xié)調(diào)一致地工作。
除了核心系統(tǒng)本身之外,還需要一種強(qiáng)大的存儲(chǔ)解決方案,一種可以從 EB 級(jí)存儲(chǔ)系統(tǒng)提供 TB 帶寬的解決方案。為了滿足 AI 培訓(xùn)不斷增長的帶寬和容量需求,我們從頭開始開發(fā)了一項(xiàng)存儲(chǔ)服務(wù) AI Research Store (AIRStore)。
為了針對(duì) AI 模型進(jìn)行優(yōu)化,AIRStore 使用了一個(gè)新的數(shù)據(jù)準(zhǔn)備階段,該階段對(duì)要用于訓(xùn)練的數(shù)據(jù)集進(jìn)行預(yù)處理。一旦進(jìn)行一次準(zhǔn)備,準(zhǔn)備好的數(shù)據(jù)集就可以用于多次訓(xùn)練運(yùn)行,直到過期。 AIRStore 還優(yōu)化了數(shù)據(jù)傳輸,從而最大限度地減少 Meta 數(shù)據(jù)中心間主干上的跨區(qū)域流量。
5、如何保護(hù) RSC 中的數(shù)據(jù)
為了構(gòu)建讓使用我們服務(wù)的人們受益于新 AI 模型——無論是檢測有害內(nèi)容還是創(chuàng)造新的 AR 體驗(yàn)——我們需要使用來自我們生產(chǎn)系統(tǒng)的真實(shí)數(shù)據(jù)來教授模型。
RSC 的設(shè)計(jì)從一開始就考慮到了隱私和安全性,因此 Meta 的研究人員可以使用加密的用戶生成數(shù)據(jù)安全地訓(xùn)練模型,這些數(shù)據(jù)直到訓(xùn)練前才被解密。例如,RSC 與更大的互聯(lián)網(wǎng)隔離,沒有直接的入站或出站連接,流量只能從 Meta 的生產(chǎn)數(shù)據(jù)中心流出。
為了滿足我們的隱私和安全要求,從我們的存儲(chǔ)系統(tǒng)到 GPU 的整個(gè)數(shù)據(jù)路徑都經(jīng)過端到端加密,并擁有必要的工具和流程來驗(yàn)證是否始終滿足這些要求。
在將數(shù)據(jù)導(dǎo)入 RSC 之前,它必須經(jīng)過隱私審查流程以確認(rèn)已正確匿名化。然后數(shù)據(jù)在可用于訓(xùn)練 AI 模型之前被加密,并定期刪除解密密鑰以確保舊數(shù)據(jù)仍然無法訪問。由于數(shù)據(jù)僅在內(nèi)存中的一個(gè)端點(diǎn)進(jìn)行解密,因此即使在不太可能發(fā)生設(shè)施物理破壞的情況下,也可以對(duì)其進(jìn)行保護(hù)。
6、二階段之后
RSC 于1月24日已經(jīng)啟動(dòng)并運(yùn)行,但它的開發(fā)仍在進(jìn)行中。一旦我們完成構(gòu)建 RSC 的第二階段,我們相信它將成為世界上最快的 AI 超級(jí)計(jì)算機(jī),其混合精度計(jì)算性能接近 5 exaflops。到 2022 年,我們會(huì)努力將 GPU 的數(shù)量從 6,080 個(gè)增加到 16,000 個(gè),這將使 AI 訓(xùn)練性能提高 2.5 倍以上。 InfiniBand 結(jié)構(gòu)將擴(kuò)展為支持 16,000 個(gè)端口,采用兩層拓?fù)浣Y(jié)構(gòu),不會(huì)出現(xiàn)超額訂閱。該存儲(chǔ)系統(tǒng)將具有 16 TB/s 的目標(biāo)交付帶寬和 EB 級(jí)容量,以滿足不斷增長的需求。
我們期望計(jì)算能力的這種階躍函數(shù)變化不僅使我們能夠?yàn)槲覀儸F(xiàn)有的服務(wù)創(chuàng)建更準(zhǔn)確的 AI 模型,而且還能夠?qū)崿F(xiàn)全新的用戶體驗(yàn),尤其是在元宇宙中。我們?cè)谧晕冶O(jiān)督學(xué)習(xí)和使用 RSC 構(gòu)建下一代 AI 基礎(chǔ)設(shè)施方面的長期投資正在幫助我們創(chuàng)建基礎(chǔ)技術(shù),這些技術(shù)將為元界提供動(dòng)力并推動(dòng)更廣泛的 AI 社區(qū)發(fā)展。
來源:ai.facebook
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺(tái)
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息