低功耗大算力技術(shù)應(yīng)運(yùn)而生成為推動 AI 生態(tài)持續(xù)發(fā)展的關(guān)鍵力量
在當(dāng)今數(shù)字化時代,人工智能(AI)技術(shù)正以前所未有的速度蓬勃發(fā)展,深刻改變著各個行業(yè)的面貌。從智能語音助手到自動駕駛汽車,從醫(yī)療影像診斷到金融風(fēng)險預(yù)測,AI 的應(yīng)用場景日益廣泛。然而,隨著 AI 模型規(guī)模的不斷擴(kuò)大和應(yīng)用復(fù)雜度的提升,對算力的需求也呈現(xiàn)出爆發(fā)式增長。與此同時,高算力帶來的高功耗問題成為了制約 AI 進(jìn)一步發(fā)展的瓶頸。在此背景下,低功耗大算力技術(shù)應(yīng)運(yùn)而生,成為推動 AI 生態(tài)持續(xù)發(fā)展的關(guān)鍵力量。
近年來,AI 模型的規(guī)模和復(fù)雜度呈指數(shù)級增長。以 GPT-4 為代表的大型語言模型,其參數(shù)量達(dá)到了萬億級別,對算力的需求極為龐大。傳統(tǒng)的計算架構(gòu)在處理如此大規(guī)模的計算任務(wù)時,不僅面臨算力不足的問題,而且功耗極高。據(jù)統(tǒng)計,一些數(shù)據(jù)中心為了維持 AI 計算的運(yùn)行,其電力消耗甚至超過了一些小型城市。這種高功耗不僅增加了運(yùn)營成本,還對環(huán)境造成了巨大壓力。因此,研發(fā)低功耗大算力技術(shù)迫在眉睫。
在硬件架構(gòu)方面,眾多企業(yè)和科研機(jī)構(gòu)不斷探索創(chuàng)新。例如,合肥君正推出的 AI 加速引擎(AIE)采用領(lǐng)域?qū)S眉軜?gòu)(DSA),通過多核 CPU、NNA(神經(jīng)網(wǎng)絡(luò)加速器)、SIMD 指令集等組合,實(shí)現(xiàn)了 “三高三低” 優(yōu)勢:算力高(8T 算力)、利用率高(MAC 利用率提升 1 - 2 倍)、靈活性高;功耗低(加速功耗小于 0.5W)、外圍成本低、帶寬需求低(降低 35% - 85%)。相比傳統(tǒng) NPU,其推理速度提升 2 - 4 倍,RAM/ROM 消耗減少 50% - 70%。全志科技 V853 芯片通過模塊化低功耗設(shè)計和系統(tǒng)級優(yōu)化,實(shí)現(xiàn)每百 Gflops 算力僅需 20mW 的功耗表現(xiàn),典型 AI 視覺方案整體能耗小于 500mW。
算法優(yōu)化也是實(shí)現(xiàn)低功耗大算力的重要途徑。模型壓縮與量化技術(shù)通過剪枝、量化感知訓(xùn)練(QAT)等方法減少模型參數(shù)和計算復(fù)雜度。Magik 平臺提供全流程開源代碼支持典型網(wǎng)絡(luò)優(yōu)化,并集成量化工具,顯著降低端側(cè)部署的資源需求。動態(tài)調(diào)整與電源管理技術(shù),如動態(tài)電壓頻率調(diào)整(DVFS),華為通過動態(tài)調(diào)整芯片電壓和頻率,結(jié)合任務(wù)調(diào)度算法減少無效能耗;睡眠模式與智能調(diào)度則讓設(shè)備在非活動期進(jìn)入低功耗狀態(tài),并通過算法優(yōu)先分配關(guān)鍵任務(wù)資源,蘋果 M9 協(xié)處理器通過低功耗算法實(shí)現(xiàn)息屏喚醒功能。此外,高效算法設(shè)計采用自適應(yīng)采樣(僅在需要時處理數(shù)據(jù))、對數(shù)系統(tǒng)(LNS)替代線性運(yùn)算(減少位元活躍度)等技術(shù),進(jìn)一步降低計算負(fù)載。
低功耗大算力技術(shù)在實(shí)際應(yīng)用中已經(jīng)取得了顯著成果。在智能視覺領(lǐng)域,君合科技的全棧式低功耗 AI 技術(shù),包括 AI 硬件加速引擎 AIE 和全棧深度神經(jīng)網(wǎng)絡(luò)開發(fā)平臺 Magik,通過 CPU 與 NPU 的同構(gòu)設(shè)計,有效突破了端側(cè) AI 的算力瓶頸,實(shí)現(xiàn)了 2T 至 32T 的算力提升,在 8T 算力場景下,典型功耗小于 500mW,能耗比最低達(dá)到了 0.05W/T。在智慧零售場景中,通過低功耗 AI 技術(shù),可以實(shí)現(xiàn)高效的物體檢測和人臉識別,提升顧客體驗(yàn)和運(yùn)營效率;在智能安防領(lǐng)域,在邊緣設(shè)備上部署低功耗 AI 模型,能夠?qū)崿F(xiàn)實(shí)時視頻分析和異常行為檢測,提高安全監(jiān)控的準(zhǔn)確性和響應(yīng)速度。
后摩智能研發(fā)的全新端邊大模型 AI 芯片 —— 后摩漫界 ®M50,實(shí)現(xiàn)了 160TOPS@INT8、100TFLOPS@bFP16 的物理算力,搭配最大 48GB 內(nèi)存與 153.6 GB/s 的超高帶寬,典型功耗僅 10W,就能讓 PC、智能語音設(shè)備、機(jī)器人等智能移動終端高效運(yùn)行 1.5B 到 70B 參數(shù)的本地大模型,真正實(shí)現(xiàn)了 “高算力、低功耗、即插即用”,和傳統(tǒng)架構(gòu)相比,M50 的能效提升 5 - 10 倍,完美適配了端邊設(shè)備 “算得快又吃得少” 的需求,可廣泛應(yīng)用于消費(fèi)終端、智能辦公、智能工業(yè)等多元領(lǐng)域。
江原科技與品高股份聯(lián)合推出的搭載全國產(chǎn)江原 D10 加速卡的 “品原 AI 一體機(jī)” 系列,江原 D10 單卡集成 64GB 大顯存,功耗僅 72W,就能支持 DeepSeek - R1 系列 1.5B 至 70B 全部 6 個蒸餾模型,8 卡即可實(shí)現(xiàn)滿血量化版運(yùn)行,以 “低功耗 + 高算力” 重新定義 AI 推理效率。依托江原 D10 加速卡,品原 AI 一體機(jī)在文本生成、圖像識別等場景展現(xiàn) “單機(jī)即集群” 的算力密度優(yōu)勢,成為千行百業(yè)落地 AI 的 “剛需級” 算力引擎。
低功耗大算力技術(shù)的發(fā)展為 AI 生態(tài)的繁榮帶來了諸多積極影響。它降低了 AI 應(yīng)用的門檻,使得更多企業(yè)和開發(fā)者能夠參與到 AI 的創(chuàng)新應(yīng)用中。無論是中小企業(yè)還是個人開發(fā)者,都能夠以較低的成本獲取強(qiáng)大的算力支持,推動 AI 技術(shù)在各個領(lǐng)域的快速普及。低功耗大算力技術(shù)提升了 AI 設(shè)備的性能和續(xù)航能力,改善了用戶體驗(yàn)。在智能移動設(shè)備、物聯(lián)網(wǎng)設(shè)備等領(lǐng)域,低功耗意味著設(shè)備可以更長時間運(yùn)行,減少充電頻率,同時高算力保證了設(shè)備能夠快速響應(yīng)用戶指令,提供更加流暢的交互體驗(yàn)。這有助于加速 AI 與物聯(lián)網(wǎng)、5G 等新興技術(shù)的融合,創(chuàng)造出更多創(chuàng)新的應(yīng)用場景,如智能家居、智能醫(yī)療監(jiān)測、智能交通等,進(jìn)一步拓展 AI 生態(tài)的邊界。
低功耗大算力技術(shù)作為 AI 生態(tài)發(fā)展的新引擎,正引領(lǐng)著 AI 技術(shù)邁向新的高度。隨著技術(shù)的不斷創(chuàng)新和完善,我們有理由相信,AI 將在更多領(lǐng)域?qū)崿F(xiàn)突破,為人類社會帶來更加智能、便捷、高效的未來。