<strike id="ca4is"><em id="ca4is"></em></strike>
  • <sup id="ca4is"></sup>
    • <s id="ca4is"><em id="ca4is"></em></s>
      <option id="ca4is"><cite id="ca4is"></cite></option>
    • 二維碼
      企資網(wǎng)

      掃一掃關(guān)注

      當(dāng)前位置: 首頁 » 企業(yè)資訊 » 產(chǎn)業(yè) » 正文

      AI場景下從GPU資源池到GPU雙資源池

      放大字體  縮小字體 發(fā)布日期:2022-06-13 06:43:22    作者:馮玉琳    瀏覽次數(shù):87
      導(dǎo)讀

      在AI(人工智能)得場景下,使用各種硬件加速器包括GPU、AI專用加速卡等對AI算法進(jìn)行加速已經(jīng)成為必不可少得選擇。由于這類GPU、AI專用加速卡得價值占據(jù)服務(wù)器成本相當(dāng)大得比例,甚至超過一半得成本,因此如何使用好

      在AI(人工智能)得場景下,使用各種硬件加速器包括GPU、AI專用加速卡等對AI算法進(jìn)行加速已經(jīng)成為必不可少得選擇。由于這類GPU、AI專用加速卡得價值占據(jù)服務(wù)器成本相當(dāng)大得比例,甚至超過一半得成本,因此如何使用好這些高價值得設(shè)備、提高業(yè)務(wù)對它們得利用率、提高對它們得運(yùn)維效率成為企業(yè)非常得要點(diǎn)。

      把資源進(jìn)行池化是數(shù)據(jù)中心提高資源利用率、提高運(yùn)維效率得最重要得手段之一。資源池化是通過分布式軟件、虛擬化等技術(shù),把某一類資源抽象成為一種可以按照運(yùn)維得管理要求、被整個數(shù)據(jù)中心各種用戶和業(yè)務(wù)共享得資源,從而打破資源被用戶和業(yè)務(wù)獨(dú)占使用得模式,打破單臺服務(wù)器得CPU、磁盤、網(wǎng)卡等物理資源數(shù)量得固定配比,并且能夠動態(tài)根據(jù)用戶和業(yè)務(wù)得需求來進(jìn)行申請和釋放。例如分布式得存儲池、軟件定義網(wǎng)絡(luò)、云原生、云計算就是利用資源池化得思想和技術(shù)對磁盤、網(wǎng)絡(luò)、服務(wù)器節(jié)點(diǎn)、業(yè)務(wù)應(yīng)用等資源進(jìn)行資源池化后得資源抽象。

      近幾年隨著AI得快速發(fā)展,業(yè)務(wù)得快速落地,GPU、AI專用加速卡作為一種通用資源出現(xiàn)在數(shù)據(jù)中心。為了提高業(yè)務(wù)對它們得利用率、提高它們得運(yùn)維效率,它們同樣需要進(jìn)行資源池化。GPU池化之后可以如同分布式共享存儲一樣,在數(shù)據(jù)中心被不同用戶、業(yè)務(wù)彈性使用。例如下圖是趨動科技(特別virtaitech/)得GPU資源池化方案所能夠呈現(xiàn)得效果。

      趨動科技OrionX AI算力資源池化解決方案

      經(jīng)過對GPU進(jìn)行資源池化之后,整個數(shù)據(jù)中心不同物理節(jié)點(diǎn)得GPU卡都被抽象成為一種虛擬得GPU資源池。上層應(yīng)用不再直接訪問物理GPU,而是訪問一種虛擬得GPU。以業(yè)內(nèi)熟知得存儲池得特點(diǎn)作為類比,可以看到對GPU進(jìn)行資源池化之后具有和分布式存儲池相似得特點(diǎn)。

      存儲池與GPU池化得特點(diǎn)類比

      GPU資源池

      GPU在數(shù)據(jù)中心經(jīng)過資源池化之后,可以在如下得方面提升資源利用率,提高運(yùn)維效率,幫助企業(yè)提高ROI:

    • 業(yè)務(wù)按需申請GPU資源。很多業(yè)務(wù),尤其是在線生產(chǎn)業(yè)務(wù)并不是要求算力越高越好。在線業(yè)務(wù)得負(fù)載來自于網(wǎng)絡(luò),只要在滿足設(shè)定得計算延遲目標(biāo)即可,并不是越快越好。業(yè)務(wù)對于顯存得使用一般都不是正好把單個GPU得顯存用滿,單個業(yè)務(wù)獨(dú)占GPU會有大量顯存空閑。相對傳統(tǒng)得單個業(yè)務(wù)獨(dú)占使用一個物理GPU,經(jīng)過資源池化之后得虛擬GPU可以避免資源浪費(fèi)。
    • 業(yè)務(wù)動態(tài)申請GPU資源,及時釋放。不少企業(yè)為內(nèi)部開發(fā)投入了大量得GPU資源,然而開發(fā)人員對GPU得利用往往很不充分——比如當(dāng)他們在進(jìn)行代碼閱讀、代碼調(diào)試得過程中,大量得時間里GPU都是處于閑置狀態(tài)。傳統(tǒng)得GPU管理運(yùn)維模式中GPU被獨(dú)占地分配到一個運(yùn)行環(huán)境中,即使應(yīng)用程序不使用GPU,該GPU也不能被重新分配利用,從而被浪費(fèi)。經(jīng)過資源池化得虛擬GPU由于支持動態(tài)申請釋放、自動根據(jù)調(diào)度算法使用整個數(shù)據(jù)中心得空閑GPU資源,所以可以用同樣得GPU資源數(shù)量支撐數(shù)倍得開發(fā)人員。
    • 有效使用碎片化得GPU資源。在實(shí)際場景中會有各種可能導(dǎo)致GPU無法被分配使用得情況。例如有得業(yè)務(wù)需求大量得CPU資源、內(nèi)存資源,會導(dǎo)致某個節(jié)點(diǎn)得CPU、內(nèi)存首先成為瓶頸從而有剩余GPU無法使用。GPU資源池化支持遠(yuǎn)程使用GPU,從而這部分剩余GPU可以提供給數(shù)據(jù)中心其他業(yè)務(wù)使用。一些分布式AI應(yīng)用要求每個節(jié)點(diǎn)GPU數(shù)量一致,但是由于GPU被碎片化申請走,會導(dǎo)致這類業(yè)務(wù)不能很好地被排布,導(dǎo)致剩余碎片化資源無法被使用。
    • 基于應(yīng)用任務(wù),實(shí)時動態(tài)調(diào)度GPU資源。傳統(tǒng)得GPU管理分配模式下,GPU分配給不同得虛擬機(jī)、容器、業(yè)務(wù)之后,就無法再干預(yù)應(yīng)用程序?qū)PU資源得使用和訪問。而經(jīng)過GPU資源池化之后,由于應(yīng)用程序?qū)PU得訪問和使用會實(shí)時經(jīng)過池化軟件得控制路徑和數(shù)據(jù)路徑,配合池化軟件得支持,可以在滿足業(yè)務(wù)需求得前提下,進(jìn)一步榨取GPU得利用空間。
    • 減少運(yùn)維異構(gòu)配置得服務(wù)器帶來得復(fù)雜性。同一個數(shù)據(jù)中心服務(wù)器配置不一樣得原因有兩類。一類是用戶主動引入異構(gòu)配置服務(wù)器來為不同得業(yè)務(wù)選擇優(yōu)化得硬件配置;另外一類是由于歷史原因,一些尚未被淘汰得服務(wù)器仍然在使用。這些配置不同得服務(wù)器極大提高了運(yùn)維復(fù)雜性,也限制了業(yè)務(wù)對資源使用得有效性。因?yàn)楣潭ǖ梅?wù)器配置與發(fā)展變化得業(yè)務(wù)是有天然得矛盾得,而服務(wù)器得采購、淘汰是對任何企業(yè)都是一個相對緩慢得過程,這樣得問題在傳統(tǒng)得GPU管理下尤為突出。而經(jīng)過資源池化得GPU資源池是以整個數(shù)據(jù)中心作為一層分布式使用模式,可以打破這種物理資源配比,提高運(yùn)維效率和業(yè)務(wù)使用資源效率。
    • 簡化機(jī)柜、制冷、供電等一系列基礎(chǔ)設(shè)施得要求,減少碳排放。GPU服務(wù)器不僅是高價值資產(chǎn),同時也是耗電大戶。傳統(tǒng)得機(jī)柜原來能放10臺甚至20臺2U服務(wù)器,如果需要安裝高配得GPU服務(wù)器,一個機(jī)柜甚至只能放一臺GPU服務(wù)器。一些數(shù)據(jù)中心可能因此出現(xiàn)容量不夠得情況。通過GPU資源池化,合理配置GPU服務(wù)器和CPU服務(wù)器,可以大幅度減少對基礎(chǔ)設(shè)施得要求及成本。

      以上是一些業(yè)務(wù)使用經(jīng)過資源池化抽象之后得虛擬GPU給企業(yè)帶來得好處。那么是否一個企業(yè)得數(shù)據(jù)中心得GPU服務(wù)器都需要通過GPU資源池化軟件抽象成為這種虛擬化得GPU呢?不同業(yè)務(wù)場景下得答案是不同得。在一些特定場景下,某些應(yīng)用程序仍然有直接訪問使用GPU得需求。類比于公有云得環(huán)境下,大部分用戶使用得是經(jīng)過虛擬化得虛擬機(jī),但是為了滿足某些實(shí)際場景得需求,公有云還提供裸金屬服務(wù)器這種直接使用物理資源得方式。

      如何管理一個數(shù)據(jù)中心得GPU,既能夠提供虛擬GPU得能力來實(shí)現(xiàn)對GPU資源高效得管理和使用,也能滿足特定需求下直接訪問使用物理GPU。答案就是在GPU資源池化得基礎(chǔ)之上,實(shí)現(xiàn)GPU雙資源池。

      GPU雙資源池

      對于AI得場景來說,哪些會有直接訪問GPU得需求呢?盡管經(jīng)過GPU資源池化之后得虛擬GPU保持了CUDA接口兼容,支持絕大部分得CUDA接口,但是仍然有部分能力和直接使用物理GPU有所差異,或者不被支持。

    • 和debugger或者profiler相關(guān)得功能。和CPU虛擬化這種有完善硬件、操作系統(tǒng)支持不同,目前GPU、AI專用加速芯片對虛擬化方面得支持還比較薄弱。單純依賴軟件來完全實(shí)現(xiàn)虛擬化環(huán)境下得 debugger、profiler是不可行得。例如英偉達(dá)GPU得vGPU對這方面得支持也是有非常大得限制,不具有實(shí)操意義。因此在應(yīng)用開發(fā)過程中如果依賴這類功能,需要直接訪問使用物理GPU。
    • 出于研究目得,對應(yīng)用算法得性能做深度分析得場景。盡管在大部分AI得場景,例如趨動科技得OrionX GPU資源池軟件可以做到性能接近物理GPU得性能,但是在做學(xué)術(shù)研究,或者在專門針對GPU性能、調(diào)度進(jìn)行研究得時候,為了得到可以在其他非GPU資源池化環(huán)境下可以復(fù)現(xiàn)得結(jié)論,需要直接在物理GPU上做相關(guān)得測試和研究。
    • 某些非云原生得商業(yè)應(yīng)用,出于保護(hù)知識產(chǎn)權(quán)得目得,在發(fā)布license時深度綁定某一些物理資源特征,導(dǎo)致不可以使用虛擬GPU。
    • 用戶硬件、軟件更新非??欤o跟GPU廠商得硬件、軟件發(fā)布得情況。不管是哪種GPU資源池化方案、GPU虛擬化方案,都是一種第三方得軟件實(shí)現(xiàn),都是基于某一些特定版本進(jìn)行支持。那么存在這一類軟件落后于最新GPU硬件版本得時間差。包括英偉達(dá)原廠得vGPU軟件也是如此。如果用戶希望在這個時間差內(nèi)使用最新得硬件和軟件,那么需要直接使用物理GPU。

      基于以上得分析,我們希望既要通過GPU資源池化使用虛擬GPU來提高GPU得利用率,又得確有直接訪問使用物理GPU得需求。一個簡單并且直接得方法就是在運(yùn)維數(shù)據(jù)中心得時候,固定劃分兩部分GPU服務(wù)器,一部分安裝GPU資源池化軟件,一部分維持傳統(tǒng)得使用物理GPU得方法。這樣得方法雖然簡單,但是弊端也比較明顯。

    • 運(yùn)維復(fù)雜,兩個資源視圖使得GPU得管理復(fù)雜化。哪些GPU型號需要如何劃分,需要劃分多少數(shù)量,都是非常難決策得問題。
    • 可能導(dǎo)致GPU資源無法充分使用。因?yàn)殪o態(tài)得數(shù)量劃分難以適應(yīng)動態(tài)得業(yè)務(wù)增長和變化。數(shù)量劃分少會導(dǎo)致不夠用,數(shù)量劃分多了會導(dǎo)致利用不高。

      因此,GPU雙資源池不是一個簡單得靜態(tài)得GPU使用功能得劃分,而應(yīng)該是一個統(tǒng)一得管理視圖,動態(tài)兼顧兩類功能得需求。

      趨動科技得OrionX GPU資源池化方案就支持這樣得雙資源池管理模式。在GPU服務(wù)器資源加入GPU資源池集群得時候,用戶可以使用參數(shù)對GPU卡進(jìn)行初始設(shè)定(物理或虛擬),可以指定一部分為物理GPU,一部分為虛擬GPU。初始化之后,用戶可以通過CLI/API或圖形界面進(jìn)行切換,下圖顯示得是兩臺服務(wù)器上各有一塊GPU卡,用戶可以通過該界面進(jìn)行虛實(shí)得切換。

      OrionX 管理界面

      用戶還可以設(shè)置高級參數(shù),來自動設(shè)置OrionX vGPU得占比,如下圖界面操作:

      OrionX支持自動配比虛實(shí)GPU資源

      OrionX得雙資源池管理能力還可以配合對應(yīng)得Kubernetes插件,和Kubernetes得設(shè)備管理能力無縫結(jié)合,實(shí)現(xiàn)OrionX管理界面和Kubernetes得GPU管理能力融合而不沖突。虛擬GPU和物理GPU在Kubernetes中對應(yīng)不同類型得資源、業(yè)務(wù)按照自己得需求申請不同類型得GPU。兩種資源配比得動態(tài)調(diào)整也會和Kubernetes得資源管理能力聯(lián)動。

      GPU資源池化是AI應(yīng)用落地走向成熟得重要里程碑,說明企業(yè)已經(jīng)從功能到開始效率。計算機(jī)領(lǐng)域其他成熟得資源都經(jīng)歷了這個過程。GPU資源池化也是這兩年得熱門技術(shù),已經(jīng)逐漸被市場認(rèn)可,在互聯(lián)網(wǎng)、金融、電信運(yùn)營商、自動駕駛、科研機(jī)構(gòu)和高校等大量得行業(yè)企業(yè)得到應(yīng)用。而從GPU資源池到GPU雙資源池,更是推動企業(yè)放心大膽接受這種新興得技術(shù), 為企業(yè)技術(shù)決策者吃個定心丸,進(jìn)退自如,虛實(shí)靈活切換,滿足業(yè)務(wù)需求,增強(qiáng)彈性,規(guī)避技術(shù)風(fēng)險。

      Reference:

      docs.nvidia/grid/latest/grid-vgpu-user-guide/index.html

    •  
      (文/馮玉琳)
      免責(zé)聲明
      本文僅代表作發(fā)布者:馮玉琳個人觀點(diǎn),本站未對其內(nèi)容進(jìn)行核實(shí),請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內(nèi)容,一經(jīng)發(fā)現(xiàn),立即刪除,需自行承擔(dān)相應(yīng)責(zé)任。涉及到版權(quán)或其他問題,請及時聯(lián)系我們刪除處理郵件:weilaitui@qq.com。
       

      Copyright ? 2016 - 2025 - 企資網(wǎng) 48903.COM All Rights Reserved 粵公網(wǎng)安備 44030702000589號

      粵ICP備16078936號

      微信

      關(guān)注
      微信

      微信二維碼

      WAP二維碼

      客服

      聯(lián)系
      客服

      聯(lián)系客服:

      在線QQ: 303377504

      客服電話: 020-82301567

      E_mail郵箱: weilaitui@qq.com

      微信公眾號: weishitui

      客服001 客服002 客服003

      工作時間:

      周一至周五: 09:00 - 18:00

      反饋

      用戶
      反饋

      午夜久久久久久网站,99久久www免费,欧美日本日韩aⅴ在线视频,东京干手机福利视频
        <strike id="ca4is"><em id="ca4is"></em></strike>
      • <sup id="ca4is"></sup>
        • <s id="ca4is"><em id="ca4is"></em></s>
          <option id="ca4is"><cite id="ca4is"></cite></option>
        • 主站蜘蛛池模板: **俄罗斯毛片免费| 久久精品国产一区二区电影| 免费人妻无码不卡中文字幕系| 久久久免费精品| 麻豆乱码国产一区二区三区| 最新精品亚洲成a人在线观看| 国产无套粉嫩白浆在线观看| 亚洲av日韩综合一区二区三区 | 国产av夜夜欢一区二区三区| 久久99国产精品成人| 色综合久久综合网| 扒开双腿猛进入免费观看美女| 国产人妖在线观看| 丰满岳乱妇在线观看中字无码| 色偷偷亚洲综合网亚洲| 成人免费观看网欧美片| 农村乱人伦一区二区| a天堂中文在线官网| 毛片基地在线观看| 国产精品高清视亚洲一区二区| 亚洲国产精品成人午夜在线观看 | 公天天吃我奶躁我的在线观看| www日本xxx| 永久黄网站色视频免费直播| 国产精品老女人精品视| 亚洲av无码一区二区三区鸳鸯影院 | 欧美成人高清WW| 尤物精品视频一区二区三区| 再灬再灬再灬深一点舒服视频| eeuss影院www在线观看免费| 毛片免费在线观看| 国产精华av午夜在线观看| 久久精品国产99国产精偷| 色婷婷天天综合在线| 好大好爽再深一点在线观看| 亚洲精品欧美精品日韩精品| 三级精品在线观看| 狠狠色综合久久婷婷色天使| 国产精品美女一区二区三区| 久久综合热88| 亚洲娇小性xxxx色|