隨著圖形處理單元(GPU)已成為訓(xùn)練和運(yùn)行AI工作負(fù)載的關(guān)鍵設(shè)備,越來(lái)越多的云服務(wù)提供商現(xiàn)在推出云GPU實(shí)例——即配備GPU的云服務(wù)器。對(duì)于希望避免在自有硬件中部署GPU的高昂成本和復(fù)雜性的企業(yè)來(lái)說(shuō),這是個(gè)好消息。
然而,鑒于目前可用的GPU實(shí)例選擇眾多,確定哪一種最適合特定工作負(fù)載可能是個(gè)挑戰(zhàn)。為了提供指導(dǎo),本文將詳細(xì)介紹當(dāng)今云環(huán)境中可用的GPU實(shí)例類型以及各種選項(xiàng)的優(yōu)缺點(diǎn)。
什么是云GPU實(shí)例?
云GPU實(shí)例是配備GPU的云服務(wù)器。
企業(yè)可以像訪問(wèn)任何其他類型的基于云的基礎(chǔ)設(shè)施即服務(wù)(IaaS)資源一樣"租用"云GPU實(shí)例:他們從云提供商那里選擇所需的實(shí)例,啟動(dòng)它,然后遠(yuǎn)程連接到它。
云GPU實(shí)例允許組織訪問(wèn)GPU——其大規(guī)模并行處理能力在訓(xùn)練和部署AI模型時(shí)非常有價(jià)值——而無(wú)需直接購(gòu)買昂貴的GPU硬件或擔(dān)心設(shè)置和維護(hù)問(wèn)題。
提供云GPU的平臺(tái)有時(shí)被稱為GPU即服務(wù)提供商——盡管從技術(shù)上講,并非所有GPU即服務(wù)產(chǎn)品都是云GPU實(shí)例,因?yàn)橛行?如GPU-over-IP選項(xiàng))僅提供對(duì)GPU的訪問(wèn),而不是配備GPU的完整云服務(wù)器。
云GPU實(shí)例類型
支持GPU的云服務(wù)器實(shí)例可以通過(guò)多種方式分類:
1. 超大規(guī)模云提供商與專業(yè)云提供商
GPU實(shí)例可從大型超大規(guī)模云提供商獲得,如亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)、微軟Azure和谷歌云平臺(tái)(GCP)。同時(shí),越來(lái)越多專門從事GPU服務(wù)器的小型云供應(yīng)商,如Lambda Labs和CoreWeave,正在進(jìn)入市場(chǎng)。
2. 通用實(shí)例與專用實(shí)例
一些GPU云服務(wù)器配置為支持可從GPU受益的各種工作負(fù)載。其他則針對(duì)特定用例,如訓(xùn)練AI模型或在模型訓(xùn)練后運(yùn)行模型。
通常,服務(wù)器類型之間的差異歸結(jié)為服務(wù)器內(nèi)GPU的類型,盡管其他資源(如服務(wù)器上可用的內(nèi)存量)也可能是一個(gè)因素。
3. 共享服務(wù)器與專用服務(wù)器
在某些情況下,支持GPU的云服務(wù)器與其他用戶共享。這意味著多家公司可以在同一服務(wù)器上運(yùn)行工作負(fù)載。在其他情況下——通常標(biāo)記為"專用"或"裸機(jī)"GPU實(shí)例——每個(gè)客戶都可以獨(dú)占訪問(wèn)服務(wù)器。后者解決方案通常更昂貴,但可以獲得更好的性能,因?yàn)槎鄠€(gè)工作負(fù)載不會(huì)競(jìng)爭(zhēng)相同的資源。
如何選擇云GPU
要決定哪種云GPU服務(wù)器最適合您的需求,請(qǐng)考慮以下因素:
工作負(fù)載類型:如上所述,一些云GPU服務(wù)器針對(duì)特定類型的工作負(fù)載進(jìn)行了優(yōu)化,如果您需要運(yùn)行這些類型的工作負(fù)載,這使它們很有吸引力。如果您需要支持多種類型的工作負(fù)載,請(qǐng)考慮通用云GPU。
GPU類型:一般來(lái)說(shuō),所有GPU型號(hào)都可以支持所有需要GPU的工作負(fù)載。區(qū)別在于它們的運(yùn)行速度。也就是說(shuō),某些類型的工作負(fù)載可能需要僅在某些GPU上可用的硬件功能;如果是這種情況,請(qǐng)確保在承諾之前確定云服務(wù)器提供的GPU類型。
成本:云GPU的成本差異很大。如果您想最小化支出,請(qǐng)考慮針對(duì)成本優(yōu)化的GPU實(shí)例。如果性能是您的首要任務(wù),您可能會(huì)發(fā)現(xiàn)支付得越多,就越能訪問(wèn)最強(qiáng)大的GPU。
延遲:延遲(即數(shù)據(jù)在網(wǎng)絡(luò)上移動(dòng)的速度)對(duì)于一些受益于GPU的工作負(fù)載通常很重要,如服務(wù)AI模型(其中模型對(duì)用戶的響應(yīng)性取決于最小化GPU延遲)。對(duì)于其他工作負(fù)載,如模型訓(xùn)練(網(wǎng)絡(luò)延遲通常不是問(wèn)題),延遲就不那么重要了。如果您需要最小化延遲,請(qǐng)選擇盡可能靠近用戶或?qū)⑴c之交互的資源的云GPU服務(wù)器。
控制:雖然所有云GPU服務(wù)器都提供對(duì)配備GPU的硬件的訪問(wèn),但用戶可用的控制級(jí)別有所不同。您通常可以從專業(yè)云GPU提供商提供的專用服務(wù)器實(shí)例獲得最多控制;超大規(guī)模云平臺(tái)上的共享GPU服務(wù)器通常成本較低,但在操作系統(tǒng)和網(wǎng)絡(luò)配置等領(lǐng)域不提供那么多選項(xiàng)。
在哪里找到云GPU
一旦您知道想要哪種類型的云GPU實(shí)例,您就需要找到提供它的云提供商。
一些GPU供應(yīng)商,如NVIDIA,提供可以將企業(yè)連接到多個(gè)提供支持GPU服務(wù)器的云提供商的中央門戶。當(dāng)然,問(wèn)題是它們只鏈接到其生態(tài)系統(tǒng)內(nèi)的云合作伙伴和提供其硬件的合作伙伴。
如果您選擇不通過(guò)這些中心之一定位云GPU實(shí)例,您可以直接連接到云提供商。所有主要的超大規(guī)模云服務(wù)商——AWS、Azure、GCP、IBM和阿里巴巴——都提供支持GPU的服務(wù)器。您還可以從專門從事GPU的云中找到選項(xiàng),如Lambda Labs、CoreWeave、RunPod、Vast.ai和Paperspace(現(xiàn)在是DigitalOcean的一部分)。