嘉賓?| 魏博鍇
出品 | CSDN云原生
2022年7月28日,中國信通院、騰訊云、FinOps產(chǎn)業(yè)標(biāo)準(zhǔn)工作組聯(lián)合發(fā)起的《原動(dòng)力x云原生正發(fā)聲 降本增效大講堂》系列直播活動(dòng)第4講如期舉行,中國信通院云大所云計(jì)算部云原生研究員魏博鍇解讀了云原生混部標(biāo)準(zhǔn)。本文整理自魏博鍇的分享。
(資料圖)
云資源利用率持續(xù)偏低,成本問題迫在眉睫
國內(nèi)公有云服務(wù)商統(tǒng)計(jì)數(shù)據(jù)顯示,公有云環(huán)境里虛擬機(jī)平均資源利用率僅為12%,部分私有云環(huán)境里這個(gè)數(shù)字甚至不足10%。Flexera《2021云狀態(tài)報(bào)告》數(shù)據(jù)顯示,企業(yè)上云后的平均資源浪費(fèi)率在30%左右。
降本增效,在離線混部成為有效路徑
傳統(tǒng)的在線交易類任務(wù)與離線數(shù)據(jù)分析類任務(wù),都部署在獨(dú)立基礎(chǔ)設(shè)施之上。如果資源利用率持續(xù)低迷,我們自然而然會(huì)嘗試將資源共享。
將在線業(yè)務(wù)和離線任務(wù)混合部署到相同物理資源上,通過資源隔離、資源調(diào)度等方式 , 在充分使用資源的同時(shí)保證服務(wù)穩(wěn)定運(yùn)行,我們稱這樣的技術(shù)為“混部”。
在離線混部的目的在于降本增效,降本是指提升資源利用率,增效指的是保障服務(wù)運(yùn)行質(zhì)量。
從資源占用的角度,在離線混部可以有效提升資源利用率,實(shí)現(xiàn)降本增效。
在離線混部模型,理想很豐滿,現(xiàn)實(shí)很骨感
混部的實(shí)現(xiàn)需要以底層基礎(chǔ)設(shè)施與上層業(yè)務(wù)應(yīng)用之間的打通為前提,這個(gè)過程會(huì)帶來大量復(fù)雜的問題:
業(yè)務(wù)部門、技術(shù)部門差異化的需求和供給導(dǎo)致資源冗余;
各種不同類型、不同特點(diǎn)的系統(tǒng)差異化,導(dǎo)致系統(tǒng)復(fù)雜性;
行業(yè)監(jiān)管要求高,在離線系統(tǒng)運(yùn)行合規(guī)難;
配套制度不完善,團(tuán)隊(duì)協(xié)作和溝通難度大;
資源配置不精準(zhǔn)、資源擴(kuò)容滯后性、資源分配不合理;
業(yè)務(wù)應(yīng)用與虛擬機(jī)、物理機(jī)的“強(qiáng)綁定”關(guān)系,導(dǎo)致資源利用率受到系統(tǒng)活躍度的影響大幅降低。
云原生技術(shù)逐步成熟,助力混部發(fā)展
面對在離線混部部署的“現(xiàn)實(shí)骨感”,我們嘗試用云原生的方法來解決混部帶來的問題。
CNCF云原生定義:有利于各組織在公有云、私有云和混合云等新型動(dòng)態(tài)環(huán)境中,構(gòu)建和運(yùn)行可彈性擴(kuò)展的應(yīng)用,代表技術(shù)包括容器、服務(wù)網(wǎng)格、微服務(wù)、不可變基礎(chǔ)設(shè)施、聲明式API等。
資源靈活配置助力混部發(fā)展
從架構(gòu)角度看,基于虛擬機(jī)、物理機(jī)的傳統(tǒng)技術(shù)架構(gòu)下,業(yè)務(wù)應(yīng)用與基礎(chǔ)環(huán)境“強(qiáng)綁定”,資源借用只能通過騰挪機(jī)器的方式實(shí)現(xiàn),很難做到混部場景下的資源彈性共享,同時(shí)IT成本并未顯著降低。
隨著云原生技術(shù)的實(shí)現(xiàn),云原生混部可以幫助企業(yè)實(shí)現(xiàn)更加靈活的彈性資源供給、智能的自動(dòng)化流量調(diào)控。企業(yè)可以針對具有業(yè)務(wù)優(yōu)先級(jí)、資源優(yōu)先級(jí)、明顯峰谷特性的業(yè)務(wù),進(jìn)行混部。
資源占用剖析和利用率提升
在對云原生混部標(biāo)準(zhǔn)的能力要求進(jìn)行抽象之前,我們嘗試對資源占用情況以及利用率提升的手段進(jìn)行剖析。
業(yè)務(wù)——已申請但未使用的量。當(dāng)業(yè)務(wù)部門作為需求部門時(shí),為了保證應(yīng)用能夠正常穩(wěn)定地運(yùn)行,往往會(huì)在提需求階段要求技術(shù)部門冗余一定的資源。在降本的過程中,可以對該部分的使用量進(jìn)行縮減。在云原生領(lǐng)域,可以基于容器實(shí)現(xiàn)精細(xì)化資源管理。
系統(tǒng)——已分配但未使用的量。傳統(tǒng)的基于虛擬機(jī)所分配的資源只能給系統(tǒng)使用,不夠靈活的情況下,無法對該部分資源進(jìn)行共享。而使用基于容器的Request和Limit可以對資源用量進(jìn)行有效判斷與管控。
應(yīng)用——峰谷效應(yīng)的空閑量。應(yīng)用在資源使用的波谷階段會(huì)產(chǎn)生大量資源空閑量,此時(shí)可以對該部分資源進(jìn)行填充,通過橫向、縱向擴(kuò)縮容,實(shí)現(xiàn)資源彈性供給及服務(wù)編排調(diào)度。
混部關(guān)鍵技術(shù)
從三種資源占用的角度出發(fā),我們對云原生混部在不同方面所需具備的相關(guān)技術(shù)方案進(jìn)行了歸納總結(jié):
基礎(chǔ)設(shè)施:優(yōu)先搶占、負(fù)載感知、干擾識(shí)別以及QoS保障等;
平臺(tái)混部:精細(xì)化資源編排、智能化資源超賣、服務(wù)化任務(wù)感知以及定制化沖突處理等;
業(yè)務(wù)應(yīng)用:Spark、Flink、Hadoop、AI Jobs等。
在對混部的整體架構(gòu)以及開源、商業(yè)的不同解決方案進(jìn)行研究和歸納后,《云原生混部技術(shù)能力要求》標(biāo)準(zhǔn)能力框架被梳理形成,如下圖所示。
中國信通院自2016年開始云原生領(lǐng)域的技術(shù)研究工作,目前已形成覆蓋容器、微服務(wù)、Serverless的完整云原生評(píng)估體系,完成20+行標(biāo)的立項(xiàng)、編寫工作。依托標(biāo)準(zhǔn)可為用戶提供圍繞云原生的預(yù)評(píng)估、能力建設(shè)規(guī)劃、建設(shè)監(jiān)理、價(jià)值挖掘和聯(lián)合研究等全鏈條咨詢服務(wù)。
接下來,我們會(huì)圍繞產(chǎn)業(yè)側(cè)的實(shí)踐及行業(yè)側(cè)的經(jīng)驗(yàn)對云原生混部技術(shù)的標(biāo)準(zhǔn)進(jìn)行更新迭代,計(jì)劃于8月啟動(dòng)首批評(píng)測。在研究方面,我們會(huì)啟動(dòng)云原生混部技術(shù)行業(yè)應(yīng)用實(shí)踐,對云原生混部的已有成效進(jìn)行指南編寫。
【原動(dòng)力×云原生正發(fā)聲降本增效大講堂】第一期聚焦在優(yōu)秀實(shí)踐方法論、資源與彈性、架構(gòu)設(shè)計(jì);第二期聚焦全場景在離線混部、K8s GPU資源效率提升、K8s資源拓?fù)涓兄{(diào)度主題,點(diǎn)擊『此處』進(jìn)入活動(dòng)專題,帶你體驗(yàn)云原生降本增效實(shí)踐案例、了解如何解決企業(yè)用云痛點(diǎn)、掌握降本增效關(guān)鍵技能……
關(guān)鍵詞: