最近中文字幕国产一区二区,亚洲色swag在线无码,中国美妇的肉逼,无码 有码 日韩 人妻

CRI-RM 助力浪潮AIStation提升云原生工作負(fù)載性能

首頁(yè) > 熱點(diǎn) > > 正文

日期:2021-11-17 16:24:58    來(lái)源:晶報(bào)網(wǎng)    

在 KubeCon + CloudNativeCon + Open Source Summit China 2021 大會(huì)上, 英特爾®有多場(chǎng)技術(shù)分享,這里要給大家特別推薦的一場(chǎng)分享為:

Friday, December 10 • 11:20 - 11:55

深入研究:基于 CRI-RM 的中央處理器和非統(tǒng)一內(nèi)存訪問(wèn)架構(gòu)親和性實(shí)現(xiàn)人工智能任務(wù)加速

歡迎大家來(lái)交流。

在這個(gè)議題中,演講嘉賓將就開(kāi)源項(xiàng)目 CRI-RM 以及它在浪潮 AIStation 的實(shí)際應(yīng)用跟大家分享。

CRI-RM(Container Runtime Interface, Resource manager), 是英特爾®初創(chuàng)的一個(gè)開(kāi)源項(xiàng)目,其目的是通過(guò)在節(jié)點(diǎn)上的動(dòng)態(tài)劃分系統(tǒng)資源,配合 Kubernetes 調(diào)度器,實(shí)現(xiàn)在節(jié)點(diǎn)層面上的最優(yōu)任務(wù)編排,把 Intel®平臺(tái)的特性完美的適配到 Kubernetes 的集群環(huán)境里。

AIStation 是浪潮發(fā)布的人工智能開(kāi)發(fā)平臺(tái),面向深度學(xué)習(xí)開(kāi)發(fā)訓(xùn)練場(chǎng)景,全面整合 AI 計(jì)算資源、訓(xùn)練數(shù)據(jù)資源以及 AI 開(kāi)發(fā)工具。

隨著 AI 技術(shù)創(chuàng)新、場(chǎng)景化 AI 應(yīng)用持續(xù)落地,越來(lái)越多的企業(yè)開(kāi)始嘗試搭建 AI平臺(tái),進(jìn)行 AI 技術(shù)開(kāi)發(fā)、模型訓(xùn)練,并將其應(yīng)用到業(yè)務(wù)流程之中。但是,AI平臺(tái)的搭建并非一蹴而就。從 AI 模型的開(kāi)發(fā),到最終進(jìn)入到生產(chǎn)部署階段,企業(yè)將面臨資源管理、模型測(cè)試等帶來(lái)的不同挑戰(zhàn),同時(shí)還需要能夠充分發(fā)揮 CPU 等硬件的性能潛力,提升 AI 訓(xùn)練性能。

浪潮與英特爾合作,利用基于容器運(yùn)行時(shí)接口的資源管理器 CRI-RM 進(jìn)行了 AI 訓(xùn)練加速實(shí)踐,可以在 K8s 集群上,按照拓?fù)滟Y源實(shí)現(xiàn)物理主機(jī)的最優(yōu)分配,從而突破使用 K8s 原生 CPU 管理機(jī)制所帶來(lái)的性能瓶頸,大幅提升 AI 計(jì)算的性能。

AI 模型訓(xùn)練進(jìn)入云原生時(shí)代,算力挑戰(zhàn)浮出水面,提到 AI 模型訓(xùn)練,不少開(kāi)發(fā)者腦海中浮現(xiàn)出的是繁瑣的資源申請(qǐng)與管理流程、巨大的算力消耗、漫長(zhǎng)的模型訓(xùn)練時(shí)間……而云原生技術(shù)的出現(xiàn),能夠在很大程度上化解 AI 資源的調(diào)度難題。通過(guò) K8s ,企業(yè)將能夠管理云平臺(tái)中多個(gè)主機(jī)上的容器化應(yīng)用,實(shí)現(xiàn) AI 資源的統(tǒng)一部署、規(guī)劃、更新和維護(hù),能夠有效提高用戶的 AI 資源管理率,提升平臺(tái)的可管理性、可擴(kuò)展性、彈性與可用性。

浪潮 AIStation 應(yīng)運(yùn)而生。面向人工智能企業(yè)訓(xùn)練開(kāi)發(fā)與服務(wù)部署場(chǎng)景,浪潮 AIStation包含完整的模型開(kāi)發(fā)、訓(xùn)練和部署全流程,可視化開(kāi)發(fā)、集中化管理等特性,能夠?yàn)橛脩籼峁└咝阅艿?AI 計(jì)算資源,實(shí)現(xiàn)高效的計(jì)算力支撐、精準(zhǔn)的資源管理和調(diào)度、敏捷的數(shù)據(jù)整合及加速、流程化的 AI 場(chǎng)景及業(yè)務(wù)整合。

圖:浪潮 AIStation V3 架構(gòu)圖

要通過(guò) AIStation 構(gòu)建 AI 應(yīng)用平臺(tái),需要進(jìn)行的一個(gè)重要抉擇便是:算力如何提供?雖然GPU 被普遍用于 AI 訓(xùn)練,但這并不意味著 GPU 是唯一選擇。事實(shí)上,在大量的行業(yè)場(chǎng)景中,用戶希望充分利用既有的 CPU 計(jì)算資源,靈活地滿足 AI 等多種負(fù)載的要求,同時(shí)減少資本支出。 但是,在 K8s 集群上使用 CPU 進(jìn)行訓(xùn)練,用戶會(huì)遇到一定的性能瓶頸。這是因?yàn)?K8s 原生的 CPU 管理機(jī)制沒(méi)有考慮 CPU 綁定與 NUMA 親和性,高版本的 K8s 只會(huì)對(duì) QOS 為 Guaranteed 的 Pod 生效,這可能會(huì)導(dǎo)致 CPU 在 AI 訓(xùn)練中無(wú)法充分發(fā)揮性能。

CRI-RM 優(yōu)化助力浪潮 AIStation 突破性能瓶頸,在發(fā)現(xiàn) K8s 集群上的 AI 算力瓶頸之后,浪潮與英特爾展開(kāi)了深入合作,使用 CRI-RM(基于容器運(yùn)行時(shí)接口的資源管理器)技術(shù)對(duì) K8s 進(jìn)行了優(yōu)化。該組件可以插在 Kubelet 和 Container Runtime(CR) 之間,截取來(lái)自 Kubelet CRI 協(xié)議的請(qǐng)求,扮演 CR 的非透明代理,跟蹤所有集群節(jié)點(diǎn)容器狀態(tài),能夠更好地將處理器、內(nèi)存、IO 外設(shè)和內(nèi)存控制器等資源分配給應(yīng)用負(fù)載,從而有效提升性能表現(xiàn)。

在TensorFlow CNN測(cè)試用例中,這一優(yōu)化被證明能夠?qū)崿F(xiàn)高達(dá) 57.76% 的性能提升[1]。這意味著在未對(duì)硬件配置進(jìn)行更新的前提下,CRI-RM 的應(yīng)用會(huì)帶來(lái)大幅度的性能提升,使得用戶無(wú)需在進(jìn)行硬件投入便能夠獲得可觀的 AI 訓(xùn)練性能提升,從而提高基礎(chǔ)設(shè)施的利用效率,并節(jié)約總體擁有成本 (TCO)。

圖:使用 CRI-RM 進(jìn)行優(yōu)化前后的性能對(duì)比

(Tensorflow | model: customized cnn,越低越好)

在此次優(yōu)化的基礎(chǔ)上,浪潮與英特爾還在探索在基于第三代英特爾® 至強(qiáng)® 可擴(kuò)展處理器的 HPC 集群上進(jìn)行進(jìn)一步的性能驗(yàn)證,并計(jì)劃在利用 CPU 進(jìn)行人工智能推理和訓(xùn)練方面進(jìn)行更為廣泛的合作,通過(guò)硬件選型、軟件優(yōu)化、系統(tǒng)集成等多種不同的方式,加速?gòu)脑贫说竭吘壔A(chǔ)設(shè)施上的人工智能性能表現(xiàn)。

查看完整方案文,請(qǐng)?jiān)L問(wèn)此方案

[1] 數(shù)據(jù)援引自浪潮內(nèi)部測(cè)試結(jié)果;測(cè)試配置:英特爾至強(qiáng)金牌6132處理器 @ 2.60GHz,28 核,56 線程,192GB內(nèi)存,Centos 7.8.2003,Kubernetes 1.14.8,Docker 19.03,AIStation 3.1

KubeCon + CloudNativeCon + Open Source Summit China 2021 由云原生計(jì)算基金會(huì) CNCF 主辦。作為云原生領(lǐng)域的頂級(jí)技術(shù)盛會(huì),歷年的 KubeCon + CloudNativeCon + Open Source Summit China 都匯聚了國(guó)內(nèi)外最活躍的開(kāi)源云原生社區(qū)、最先進(jìn)的技術(shù)代表與行業(yè)的最佳落地實(shí)踐,推動(dòng)云原生計(jì)算領(lǐng)域的知識(shí)更新和技術(shù)進(jìn)步。本屆大會(huì)的議程安排現(xiàn)已全面上線,更多詳情請(qǐng)查看大會(huì)官網(wǎng)。

免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買(mǎi)賣(mài)依據(jù)。

關(guān)鍵詞: 原生 工作 負(fù)載

下一篇:RingCentral 和 Mitel 宣布戰(zhàn)略合作伙伴關(guān)系,幫助客戶無(wú)縫遷移到基于云的統(tǒng)一商務(wù)通信
上一篇:FHD酒店機(jī)電設(shè)計(jì)助力之下,酒店的未來(lái)能有多少新期待?

科技

 
壤塘县| 上思县| 仁怀市| 绵阳市| 延津县| 太原市| 英德市| 成武县| 丹东市| 息烽县| 定州市| 天台县| 古田县| 新邵县| 沈丘县| 图木舒克市| 云梦县| 五指山市| 北碚区| 霍城县| 井研县| 涟源市| 宜城市| 景东| 阿图什市| 都兰县| 灵宝市| 阿克苏市| 兴安县| 通城县| 刚察县| 永济市| 含山县| 衡东县| 洛川县| 阿拉尔市| 兰坪| 如皋市| 合肥市| 开鲁县| 景东|