作為全國首個(gè)以 “雙高” 為基礎(chǔ)的本科職業(yè)學(xué)校,深圳職業(yè)技術(shù)大學(xué)在 AI 高層次技術(shù)技能人才培養(yǎng)中,正面臨一道關(guān)鍵難題:學(xué)生實(shí)訓(xùn)要足量 GPU 算力支撐,教師科研需靈活適配 IT 環(huán)境,可傳統(tǒng) IT 架構(gòu)下,資源不夠用、管理太繁瑣、運(yùn)維壓得慌,如何打破這層束縛?深圳職業(yè)技術(shù)大學(xué)為職業(yè)本科 AI 育人提供了可落地的參考樣本。
在 AI 發(fā)展大潮下, 學(xué)校以人工智能技術(shù)應(yīng)用落地為研究導(dǎo)向,積極開展學(xué)科建設(shè),推動科研向教學(xué)的轉(zhuǎn)化,培養(yǎng)高層次技術(shù)技能人才。既要讓學(xué)生在課堂上接觸真實(shí)的 AI 模型訓(xùn)練與推理場景,又要支持教師開展面向產(chǎn)業(yè)需求的 AI 應(yīng)用科研項(xiàng)目,深圳職業(yè)技術(shù)大學(xué)原有 IT 架構(gòu)逐漸難以支撐新增需求,主要面臨以下阻礙:
● GPU 資源利用低,實(shí)訓(xùn)需求難滿足
AI 教學(xué)中的模型實(shí)驗(yàn)、教學(xué)實(shí)訓(xùn)均高度依賴 GPU 算力,但學(xué)校面臨雙重困境:一方面,GPU 資源有限,高峰期多個(gè)班級需排隊(duì)使用,實(shí)訓(xùn)課程的時(shí)段安排分散,影響教學(xué)進(jìn)度;另一方面,傳統(tǒng)管理方式下,GPU 資源利用率低,非上課時(shí)段設(shè)備常有閑置,需要?jiǎng)討B(tài)調(diào)配機(jī)制,緩解資源緊張問題。
● 教學(xué)環(huán)境要求有差異,準(zhǔn)備復(fù)雜并且管理難
不同課程對 IT 環(huán)境的需求差異顯著,為支持不同計(jì)算任務(wù)可能花費(fèi)大量時(shí)間配置物理機(jī),同時(shí)需要配置不同的 AI 框架,學(xué)習(xí)環(huán)境的切換與就緒都耗時(shí)耗力。與此同時(shí),實(shí)驗(yàn)代碼、訓(xùn)練模型、數(shù)據(jù)集缺乏統(tǒng)一存儲管理,一旦出現(xiàn)本地設(shè)備故障等問題,可能導(dǎo)致數(shù)據(jù)丟失或者結(jié)果出錯(cuò)。
● 依賴教師的人工管理,運(yùn)維壓力大
從 GPU 資源申請、環(huán)境配置到實(shí)驗(yàn)任務(wù)提交,均需依賴?yán)蠋熓謩硬僮鳎瑪D占了備課與教學(xué)時(shí)間。如果面對 100+ 學(xué)生同時(shí)申請資源,不僅效率低下,還容易出現(xiàn)資源分配不均、權(quán)限設(shè)置錯(cuò)誤等問題,進(jìn)一步增加運(yùn)維負(fù)擔(dān)。
資源池化切分 + 動態(tài)調(diào)度,實(shí)現(xiàn)供需平衡與高效利用
通過青云 AI 智算平臺,深圳職業(yè)技術(shù)大學(xué)將GPU資源整合為統(tǒng)一資源池,以精細(xì)化的算力切分及智能動態(tài)調(diào)度破解智算資源難題。
● 精細(xì)化算力切分:同時(shí)支持獨(dú)占 GPU 和 vGPU 申請。通過 vGPU 將單張 GPU 卡切分為多個(gè)獨(dú)立算力單元,每個(gè)單元可滿足 1 名學(xué)生的實(shí)訓(xùn)需求,在不增加硬件投入的情況下,將 GPU 資源承載能力提升 3-5 倍。
● 智能動態(tài)調(diào)度:依托調(diào)度算法實(shí)現(xiàn) “教學(xué)實(shí)訓(xùn)優(yōu)先 + 科研錯(cuò)峰利用”,上課高峰期自動將閑置科研算力單元調(diào)配至教學(xué)場景,非上課時(shí)段則釋放算力單元供科研使用,資源不足時(shí)自動開啟排隊(duì)機(jī)制,實(shí)現(xiàn)資源價(jià)值最大化。
分鐘級交付,環(huán)境切換與框架啟動零門檻
為解決教學(xué)環(huán)境適配難,深圳職業(yè)技術(shù)大學(xué)通過軟硬件一體化交付的方案,實(shí)現(xiàn)教學(xué)實(shí)訓(xùn) “開箱即用”。
● 分鐘級環(huán)境交付:學(xué)生通過統(tǒng)一平臺提交環(huán)境需求,從申請到環(huán)境就緒僅需 1分鐘,相比傳統(tǒng)手動配置效率大幅提升,滿足多課程連續(xù)實(shí)訓(xùn)的快速切換需求。
● 一鍵啟動常用框架與模型:預(yù)集成 PyTorch、MindSpore 等主流 AI 框架,以及 30 + 通用模型,學(xué)生無需手動下載配置,點(diǎn)擊即可啟動使用,同時(shí)支持自定義模型上傳,兼顧基礎(chǔ)教學(xué)與進(jìn)階實(shí)訓(xùn)。
全流程自助 + 可視化監(jiān)控,學(xué)生更便捷、教師更省心
借助青云 AI 智算平臺,深圳職業(yè)技術(shù)大學(xué)實(shí)現(xiàn)學(xué)生自主操作與教師智能管控的雙向優(yōu)化,減輕師生的使用負(fù)擔(dān),進(jìn)一步提升管理效率。
● 全流程自助:學(xué)生可自主完成 GPU 資源申請(選擇算力規(guī)格、使用時(shí)長)、環(huán)境配置與任務(wù)提交,一旦任務(wù)完成,資源則自動釋放,同時(shí)也支持師生的遠(yuǎn)程訪問,以及多任務(wù)并發(fā)。
● 可視化監(jiān)控與自動隔離:教師通過平臺可以查看 GPU 使用率、內(nèi)存占用、任務(wù)進(jìn)度等。當(dāng)出現(xiàn)設(shè)備故障、資源超配等問題時(shí),系統(tǒng)自動觸發(fā)告警;當(dāng)出現(xiàn)異常任務(wù)時(shí),能夠自動隔離,不影響其他學(xué)生的實(shí)驗(yàn)進(jìn)程。
深圳職業(yè)技術(shù)大學(xué)以高效、低成本的智算支撐,解決了 GPU 資源緊張的難題,實(shí)現(xiàn)了實(shí)訓(xùn)環(huán)境的分鐘級交付,獲得了更便捷的管理運(yùn)維,加速了科研向教學(xué)的轉(zhuǎn)化,為培養(yǎng)高層次技術(shù)技能人才筑牢根基。青云科技將持續(xù)探索高校在 AI 時(shí)代的深層需求,不斷創(chuàng)新應(yīng)用場景,以更貼合教育實(shí)際的智算解決方案,助力 AI 教學(xué)、科研與人才培養(yǎng)。