400G800G 及以上以太網(wǎng)絡(luò),用于高性能計算系統(tǒng)
在過去十年中,高性能計算 (HPC) 系統(tǒng)上的工作流已經(jīng)大大多樣化,通常將 AI/ML 處理與傳統(tǒng) HPC 相結(jié)合。作為回應(yīng),已經(jīng)設(shè)計并使用了各種各樣的專用 HPC 計算機(jī)系統(tǒng)(集群節(jié)點)來解決特定的應(yīng)用程序和框架性能優(yōu)化問題。針對這些系統(tǒng)的不同隊列允許每個用戶指示批處理調(diào)度程序?qū)⒆鳂I(yè)分派到與其應(yīng)用程序的計算要求非常匹配的硬件。高內(nèi)存節(jié)點、具有一個或多個加速器的節(jié)點、支持高性能并行文件系統(tǒng)的節(jié)點、交互式節(jié)點以及旨在支持容器化或虛擬化工作流的主機(jī)只是為 HPC 開發(fā)的專用節(jié)點組的幾個示例。
托管 HPC 集群的數(shù)據(jù)中心中互連系統(tǒng)的密度和流量要求需要像脊/葉架構(gòu)這樣的拓?fù)浣Y(jié)構(gòu)。如果 HPC 系統(tǒng)的容量增長超出單個位置的容量并且正在分布在多個建筑物或數(shù)據(jù)中心。涉及進(jìn)程間通信、交互式訪問、共享文件系統(tǒng) I/O 以及 NTP、DNS 和 DHCP 等服務(wù)流量的流量模式,其中一些表現(xiàn)出很強(qiáng)的延遲敏感性,否則將不得不競爭可用帶寬。使用脊/葉架構(gòu)的連接通過啟用可以為任何節(jié)點到節(jié)點通信提供唯一且不受限制的路徑的路由算法來解決這個問題。
HPC 現(xiàn)在正在從幾乎完全專門構(gòu)建的本地基礎(chǔ)架構(gòu)進(jìn)一步發(fā)展為混合甚至完全駐留在云的架構(gòu)。過去幾十年來,構(gòu)建、運營和維護(hù)用于托管專用 HPC 的基礎(chǔ)設(shè)施的高昂成本已促使許多政府實驗室、公司和大學(xué)重新思考專用 HPC 的戰(zhàn)略。除了購買構(gòu)建本地 HPC 集群所需的空間、機(jī)架、電源、冷卻、數(shù)據(jù)存儲、服務(wù)器和網(wǎng)絡(luò),更不用說維護(hù)和更新這些系統(tǒng)的人員和費用,除了最大的 HPC 從業(yè)者之外,所有的人都在遷移從提供 HPC 服務(wù)的云提供商那里獲得更加基于使用的模型。這些變化刺激了對互聯(lián)網(wǎng)連接和帶寬的重新投資,以實現(xiàn)云爆發(fā)、數(shù)據(jù)遷移、和云駐留基礎(chǔ)架構(gòu)上的交互性。這為致力于建立自定義環(huán)境以開發(fā)和運行應(yīng)用程序框架的開發(fā)人員帶來了新的挑戰(zhàn),通常會產(chǎn)生復(fù)雜的軟件版本相互依賴性。容器化的使用有助于隔離許多這些軟件和庫依賴項,由于放松了主機(jī)映像限制,使云遷移變得更簡單。
400G/800G 以太網(wǎng)的 HPC 網(wǎng)絡(luò)基礎(chǔ)設(shè)施注意事項
負(fù)責(zé)提供所有這些流量的互聯(lián)網(wǎng)服務(wù)提供商和運營商依賴于以穩(wěn)定可靠的速度增長的技術(shù),當(dāng)然,他們的成本意識很強(qiáng),因為他們的底線與建設(shè)、升級和管理的投資有關(guān)網(wǎng)絡(luò)基礎(chǔ)設(shè)施的運營成本。超大規(guī)模運營商和云服務(wù)提供商還面臨著越來越大的成本壓力,需要在其數(shù)據(jù)中心聚合和減少交換機(jī)設(shè)備的數(shù)量、電力利用率和冷卻需求。
在將以太網(wǎng)驅(qū)動到這些新的速度高度時,成本并不是唯一需要考慮的因素。 PAM-4 信令最初以 25 Gb/s 的信令速率引入,作為 100G 以太網(wǎng)的推動者,但由于誤碼率較高,這種方法需要前向糾錯 (FEC)。包含 FEC 的信令更改會為物理層設(shè)計帶來延遲開銷和復(fù)雜性,但更快的信令速率也需要強(qiáng)制使用 FEC。雖然多個 100 Gb/s 端口的鏈路聚合以實現(xiàn)更高的帶寬(通過 NRZ 信令速率仍然可以實現(xiàn))可能是解決此問題的臨時方法,但由于它所需要的密度限制以及所需的成倍增加的端口數(shù)量的成本增加。對于超過 400G 的以太網(wǎng),
布線是高速以太網(wǎng)的另一個挑戰(zhàn)。即使在短距離內(nèi),銅纜在這些速度下通常噪音太大且耗電 光纜必須更靠近核心物理編碼子系統(tǒng) (PCS) 層,以避免由于使用外部電光子連接器而引入的信號損失和功率需求。一個用例需要中斷布線選項,因為具有足夠高帶寬的單個交換機(jī)端口可以支持多個計算機(jī)系統(tǒng)。另一個用例側(cè)重于匯聚層交換機(jī)到交換機(jī)或站點到站點的連接。用于長距離連接(每個重復(fù)段約 80 公里)的密集波分復(fù)用 (DWDM) 和用于較短距離連接的單模光纖 (SMF) 將逐漸取代多模光纖和銅線技術(shù),以實現(xiàn) 200 Gb/s 的信號速率,但 100G 電信號速率和多模光纖成本優(yōu)勢將在未來幾年內(nèi)難以克服和取代。CWDM 和 DWDM 引入了相干光信號作為 PAM-4 的替代方案,但需要更大的功率、成本和復(fù)雜性才能實現(xiàn)更長的傳輸距離。在數(shù)據(jù)中心內(nèi),向后兼容性、交換機(jī)聚合和交換機(jī)數(shù)量減少以及節(jié)能潛力的壓力是靈活的板載光學(xué)設(shè)計的強(qiáng)大誘因,該設(shè)計還可以容納現(xiàn)有的可插拔模塊以實現(xiàn)降速連接。和復(fù)雜性,以實現(xiàn)他們實現(xiàn)的更遠(yuǎn)距離。在數(shù)據(jù)中心內(nèi),向后兼容性、交換機(jī)聚合和交換機(jī)數(shù)量減少以及節(jié)能潛力的壓力是靈活的板載光學(xué)設(shè)計的強(qiáng)大誘因,該設(shè)計還可以容納現(xiàn)有的可插拔模塊以實現(xiàn)降速連接。和復(fù)雜性,以實現(xiàn)他們實現(xiàn)的更遠(yuǎn)距離。在數(shù)據(jù)中心內(nèi),向后兼容性、交換機(jī)聚合和交換機(jī)數(shù)量減少以及節(jié)能潛力的壓力是靈活的板載光學(xué)設(shè)計的強(qiáng)大誘因,該設(shè)計還可以容納現(xiàn)有的可插拔模塊以實現(xiàn)降速連接。
使用 IP 啟用 400G/800G 以太網(wǎng)
那么 SoC 設(shè)計人員如何開發(fā)支持 400G 及以上以太網(wǎng)的芯片呢?網(wǎng)絡(luò)交換機(jī)和計算機(jī)系統(tǒng)必須使用支持這些高數(shù)據(jù)速率的組件來提供它們所承諾的應(yīng)用程序加速。無論是降低網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性以實現(xiàn)更高級別的聚合,將超大規(guī)模器的基礎(chǔ)架構(gòu)擴(kuò)展至超出先前較慢網(wǎng)絡(luò)技術(shù)所施加的限制,還是加快將數(shù)據(jù)傳輸?shù)竭\行在一組網(wǎng)絡(luò)連接計算機(jī)上的神經(jīng)網(wǎng)絡(luò)——數(shù)據(jù)路徑中的所有元素都必須能夠支持所需的較低延遲和較高帶寬,而不會產(chǎn)生過多的功率或成本損失。當(dāng)然,與較慢組件的向后兼容性將確保 400G/800G 以太網(wǎng)及更高版本的無縫采用和集成到現(xiàn)有數(shù)據(jù)中心。
在 400G/800G 網(wǎng)絡(luò)中提供這種性能涉及物理和電子領(lǐng)域的多重挑戰(zhàn)。具有更快時鐘速度、并行路徑和復(fù)雜信號要求的電效率難以實現(xiàn),而更快的通信速度所固有的更高錯誤率產(chǎn)生了對高效 FEC 的需求,以確保在低重傳率的情況下實現(xiàn)最小延遲。如前所述,布線介質(zhì)必須支持機(jī)架、數(shù)據(jù)中心甚至城市規(guī)模的更高數(shù)據(jù)速率。沒有一種布線技術(shù)能在如此多樣化的長度范圍內(nèi)達(dá)到理想狀態(tài),因此開發(fā)的任何解決方案都必須支持多種媒體類型。
SoC 設(shè)計人員需要在考慮所有這些因素的情況下開發(fā)硅 IP,Synopsys 在多代協(xié)議中一直是以太網(wǎng)硅 IP 的領(lǐng)先開發(fā)商,并且在推動 400G/800G 以太網(wǎng)及更高版本的標(biāo)準(zhǔn)化方面仍然不可或缺。Synopsys 提供集成的400G/800G 以太網(wǎng) IP解決方案,該解決方案符合行業(yè)標(biāo)準(zhǔn),可配置以滿足當(dāng)今 HPC 的各種需求,即使是 AI/ML 工作負(fù)載,同時保持向后兼容較低的速度和較舊的標(biāo)準(zhǔn)化。