場(chǎng)景描述
![]()
圖片系A(chǔ)I生成
在線服務(wù)資源使用量隨著終端用戶的使用習(xí)慣呈現(xiàn)出穩(wěn)定的潮汐現(xiàn)象,夜間CPU利用率極低,導(dǎo)致集群均值CPU利用率較低;業(yè)務(wù)保有大量的獨(dú)占資源池,資源池割裂產(chǎn)生大量的資源碎片,拉低CPU利用率;業(yè)務(wù)為了穩(wěn)定性考慮,會(huì)過(guò)量囤積資源,進(jìn)一步拉低CPU利用率。
解決方案

點(diǎn)擊報(bào)名參與創(chuàng)新場(chǎng)景50的評(píng)選
在阿里云的協(xié)助下,小紅書(shū)混部技術(shù)經(jīng)歷了四個(gè)階段演進(jìn):閑置資源再利用、整機(jī)騰挪分時(shí)復(fù)用、常態(tài)混部、統(tǒng)一調(diào)度。
一,通過(guò)技術(shù)手段將集群中的閑置資源收集起來(lái),分配給轉(zhuǎn)碼類業(yè)務(wù)場(chǎng)景使用;
二,通過(guò)彈性能力(HPA),在凌晨業(yè)務(wù)低峰期按比例對(duì)在線業(yè)務(wù)縮容,騰挪空出整機(jī),并將轉(zhuǎn)碼、訓(xùn)練等離線pod在該時(shí)段運(yùn)行起來(lái),起到利用率“填谷”的效果;
三,平臺(tái)持續(xù)推進(jìn)業(yè)務(wù)大規(guī)模合池,將業(yè)務(wù)由獨(dú)占池遷至平臺(tái)托管的公共混部池,通過(guò)合池、資源超賣(mài)等技術(shù)手段,CPU分配率得到有效提升,同時(shí)通過(guò)建設(shè)更為細(xì)粒度的資源管理與調(diào)度能力來(lái)實(shí)現(xiàn)均值利用率提升的目標(biāo);
四,混合云架構(gòu)的統(tǒng)一調(diào)度來(lái)管理異構(gòu)計(jì)算資源,并支持各類業(yè)務(wù)形態(tài)的工作負(fù)載調(diào)度能力。
成效
通過(guò)大規(guī)模容器混部的持續(xù)推進(jìn),小紅書(shū)在資源成本效能上有顯著改善。
在CPU利用率方面,在線混部集群天均CPU利用率提升至45%以上,部分集群天均CPU利用率可穩(wěn)定提升至55%。在線集群CPU利用率提升8%-15%不等,部分存儲(chǔ)集群利用率提升可達(dá)20%以上。在資源成本方面,為小紅書(shū)各類離線場(chǎng)景提供數(shù)百萬(wàn)核時(shí)的低成本算力?;觳考篊PU分配率提升至125%以上,相較于獨(dú)占資源池,資源碎片率明顯下降。
「關(guān)于創(chuàng)新場(chǎng)景50」
場(chǎng)景不是案例,它更加精準(zhǔn)、也更加抽象。數(shù)字化就是創(chuàng)新場(chǎng)景的不斷疊加和迭代。
在此背景下,鈦媒體重磅推出「創(chuàng)新場(chǎng)景50」評(píng)選,每年遴選并解讀50個(gè)全行業(yè)與業(yè)務(wù)深度融合的創(chuàng)新性場(chǎng)景及其解決方案,并在鈦媒體年度ITValue Summit 數(shù)字價(jià)值年會(huì)上隆重頒獎(jiǎng)、深度交流。
目前場(chǎng)景正在征集中,更精準(zhǔn)的解讀、更廣泛的曝光、更強(qiáng)大的品牌勢(shì)能,歡迎你提出問(wèn)題,更歡迎你留下解決的方法和工具。點(diǎn)擊這里投遞更多場(chǎng)景信息

點(diǎn)擊進(jìn)入2024 ITValue Summit數(shù)字價(jià)值年會(huì),了解更多信息。


快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論