如何選擇最優(yōu)的NVMe-over-Fabrics方案
NVMe?作為一種SCSI的替代型協(xié)議,其目的在于實現(xiàn)低延遲運行。目前市場上主要的服務(wù)器和存儲供應(yīng)商都采用了該協(xié)議,用來替代固態(tài)硬盤(SSD)訪問過程中的SCSI協(xié)議。采用NVMe協(xié)議后,基于NVMe的SSD可以消除傳統(tǒng)存儲實施過程中固有的瓶頸。由此,對于企業(yè)數(shù)據(jù)中心內(nèi)的各類應(yīng)用程序的訪問操作,相應(yīng)的訪問速度都將大大提升。本文就帶您解析下將NVMe 用在 SSD中,以及大規(guī)模組網(wǎng)部署時會遇到哪些關(guān)鍵問題。
為何 NVMe的應(yīng)用范圍如此廣泛且增長迅猛?
NVMe是一款為了與高速閃存進行通信而全新設(shè)計的協(xié)議,其僅需30條專為處理 SSD開發(fā)的指令。此外,為了利用最新多核處理器的并行處理能力,該協(xié)議還支持多深度指令隊列。NVMe協(xié)議最多可支持到64K個隊列(queues),且其每個隊列可以支持64K個指令(commands)操作。傳統(tǒng)SCSI、SAS和SATA協(xié)議的初始開發(fā)目的在于傳統(tǒng)的機械硬盤(HDD),與之相比,NVMe表現(xiàn)出了巨大進步。
縱觀當今全球市場,基于NVMe的SSD驅(qū)動器的銷量正在趕超SAS和SATA的SSD存儲器銷量*。這是因為,對于當前和下一代SSD技術(shù)(如3D XPoint和NVDIMM非易失性DIMM)而言,NVMe協(xié)議都能帶來顯著的性能提升。
為何需要考慮采用 NVMe-over-Fabrics?
構(gòu)建NVMe協(xié)議的主要目標在于,允許中央處理器(CPU)使用PCIe總線訪問服務(wù)器內(nèi)部基于 NVMe的SSD。但是,存儲管理員開始意識到,本地服務(wù)器存儲引發(fā)了嚴重的管理問題,尤其在過度供應(yīng)昂貴的SSD存儲資源方面最為突出(也就是通過考慮充分的余量應(yīng)對任何過度需求)。根據(jù)應(yīng)用的工作負載,不同服務(wù)器所需的高性能NVMe SSD存儲量也不盡相同。這些應(yīng)用可以遷移至不同的物理服務(wù)器,但是所需的SSD存儲量始終相同。為避免每臺服務(wù)器過度占用昂貴的SSD存儲器,更加經(jīng)濟高效的模式是建立一個NVMe SSD共享存儲池,由此可根據(jù)工作負載動態(tài)分配存儲空間。
對于本地存儲,最重要一點在于必須備份所有數(shù)據(jù),以防服務(wù)器發(fā)生故障。此外,過去的存儲方式還存在嚴重的安全隱患,并且不同站點間的復(fù)制往往難以管理。通過共享存儲,管理員就可以避免上述問題。換言之,CIO不僅可以跨服務(wù)器充分利用高性能閃存,還兼具現(xiàn)代化存儲陣列具備的所有更強大的可用性和安全性特點,并且具有類似于本地NVMe SSD存儲的高性能和低延遲優(yōu)勢。
NVMe-over-Fabrics的發(fā)展趨勢如何?
為了理解這一問題,不妨把共享存儲陣列和汽車發(fā)動機進行類比。具體來說,可以認為傳統(tǒng)的光纖通道FC/iSCSI共享存儲就相當于傳統(tǒng)的汽油發(fā)動機。這些方案已經(jīng)應(yīng)用多年,非??煽?,它們將在長時間內(nèi)提供一種優(yōu)良的運輸方式。
隨著時間的推移,混合動力汽車越來越普遍,并且兼具電動和汽油的優(yōu)勢。與此類似,更加新穎的NVMe陣列在其內(nèi)部混合了NVMe,但仍然使用SCSI指令通過FC或以太網(wǎng)傳輸協(xié)議連接至主機。
盡管大多數(shù)人同意電動汽車是未來的必然發(fā)展趨勢,但當下卻仍未成為主流。因為與傳統(tǒng)方案相比,電動汽車不僅更加昂貴,而且相關(guān)基礎(chǔ)設(shè)施尚且分布不足,無法支撐充電需求??梢韵胂螅幱诔砷L期的NVMe存儲陣列與全電動汽車正處于相同的境地。NVMe-over-Fabrics正是落實NVMe存儲的基礎(chǔ)設(shè)施。這種方式將在適當時機成為連接共享存儲陣列與服務(wù)器之間的主流通信標準,但是在廣泛部署NVMe-over-Fabrics并且解決所有相關(guān)的新生問題之前,尚且還有很長的發(fā)展道路。
您應(yīng)當選擇哪種 NVMe-over-Fabrics 方案?
存儲管理員面臨的最大難題在于,確定哪種技術(shù)是正確的投資方向。與任何新出現(xiàn)的技術(shù)一樣,整體方案的部署有多種途徑。從這個角度來說,NVMe-over-Fabrics 也毫不例外。NVMe指令可以通過FC、啟用了RDMA的以太網(wǎng)或使用TCP/IP的標準以太網(wǎng)進行傳輸。您可通過閱讀以下內(nèi)容,即可了解不同方案間的主要差異。

圖 1:目前可用的主流NVMe光纖連接方案
1. NVMe-over-FC(FC-NVMe)
對于已經(jīng)部署了光纖通道存儲網(wǎng)絡(luò)(SAN)基礎(chǔ)設(shè)施的用戶而言,F(xiàn)C-NVMe當屬最優(yōu)方案。使用16Gb FC或32Gb FC主機總線適配器(HBA)和SAN交換機,即可將NVMe協(xié)議封入FC框架內(nèi)部。通過升級至最新的HBA固件和驅(qū)動程序則能獲取Linux服務(wù)器上的FC-NVMe支持。因此,投資新型16Gb或32Gb FC HBA和SAN基礎(chǔ)設(shè)施,能夠為應(yīng)用今后推出的FC-NVMe存儲陣列做好提前準備。另外值得注意的是,SCSI (FCP) 和 NVMe (FC-NVMe) 可以共存于相同的FC光纖網(wǎng)絡(luò)中,因此,基于FC-SCSI的老存儲可以與全新的NVMe存儲同時運行。
2. 使用RDMA (NVMe/RDMA)的NVMe-over-Ethernet 光纖
這種RDMA兼容型以太網(wǎng)適配器現(xiàn)已獲得授權(quán)。RDMA有兩種不同的部署方式,名稱分別為RoCE(v1/v2)和iWARP。然而非常遺憾,以上兩種協(xié)議無法實現(xiàn)交互操作。下面我將簡要說明兩種協(xié)議各自的優(yōu)劣勢:
NVMe-over-RoCE (NVMe/RoCE):如果您使用的是只有以太網(wǎng)的網(wǎng)絡(luò),NVMe-over-RoCE是共享存儲或超融合基礎(chǔ)設(shè)施(HCI)連接的最佳方案。正因如此,目前已有多家存儲陣列供應(yīng)商公布了他們的計劃,及表示支持NVMe-over-RoCE連接。RoCE能夠提供最低的以太網(wǎng)絡(luò)延遲,并且對于跳數(shù)不超過 2 個的小規(guī)模存儲網(wǎng)絡(luò),能達到非常優(yōu)異的運行效果。顧名思義,RoCE需要聚合或無損的以太網(wǎng)絡(luò)才能正常運行。此外,該方案還需啟用實現(xiàn)額外的網(wǎng)絡(luò)功能,包括數(shù)據(jù)中心橋接(DCB)、優(yōu)先流控制(PFC),以及其他一些更復(fù)雜的組織架構(gòu)和網(wǎng)絡(luò)擁塞管理機制。如果低延遲是您的首要目標,那么NVMe-over-RoCE很可能是您的最優(yōu)選擇,盡管其網(wǎng)絡(luò)復(fù)雜性也相對較高。
NVMe-over-iWARP (NVMe/iWARP):iWARP RDMA協(xié)議運行于標準TCP/IP網(wǎng)絡(luò)之中,因此其部署操作也更加簡單。盡管該協(xié)議的延遲性能不及RoCE,但更加易用的特性以及更低的管理難度依然具有巨大的吸引力。在現(xiàn)階段,存儲陣列供應(yīng)商尚未設(shè)計出支持 iWARP的陣列,因此目前的iWARP最適合軟件定義或者基于Microsoft Azure Stack HCI / Storage Spaces Direct (S2D) 等HCI解決方案。
3. NVMe-over-TCP (NVMe/TCP)
NVMe-over-TCP還處于研發(fā)萌芽階段。該方案于2018年11月獲批,在不進行任何必要調(diào)整工作的情況下即可在現(xiàn)有的以太網(wǎng)基礎(chǔ)設(shè)施中運行(這一點利用了TCP/IP廣泛的普遍性)。 NVMe-over-TCP發(fā)揮的性能表現(xiàn)可能在速度上不及NVMe-over-RDMA或FC-NVMe,但在標準以太網(wǎng)卡和以太網(wǎng)網(wǎng)絡(luò)交換機上就可以輕松實現(xiàn)部署。無需大量的硬件投資,即可享受NVMe SSD存儲的主要優(yōu)勢。Marvell? FastLinQ? 10/25/50/100GbE等部分網(wǎng)卡還能利用網(wǎng)卡內(nèi)置的TCP/IP協(xié)議棧的硬件卸載(offload)功能,發(fā)揮為NVMe/TCP報文卸載并加速的潛力。
總結(jié)
無論您決定采用哪種NVMe-over-Fabrics路線,Marvell都能為您提供豐富靈活的產(chǎn)品組合,并在部署過程中為您提供一切幫助。尤其要強調(diào)的是,Marvell QLogic? 16Gb和32Gb FC主機總線適配器(HBA)支持FC-NVMe;同時,得益于網(wǎng)卡內(nèi)置的通用型RDMA功能,Marvell FastLinQ 41000和45000系列的10/25/40/50/100Gb以太網(wǎng)NIC和CNA網(wǎng)卡均支持NVMe-over-RoCE和NVMe-over-iWARP功能以及NVMe-over-TCP。因此,管理員可以根據(jù)自身需求確定系統(tǒng)架構(gòu),同時還能確?,F(xiàn)階段的部署也可應(yīng)用于未來的網(wǎng)絡(luò)。
*數(shù)據(jù)來源:DRAMeXchange以及其他行業(yè)分析師發(fā)布的數(shù)據(jù)
關(guān)于 Marvell
Marvell率先以超出想象的速度傳輸信息,從而為數(shù)字存儲行業(yè)帶來全新變革。今天,突破性創(chuàng)新仍然是Marvell存儲、處理、網(wǎng)絡(luò)、安全和連接解決方案的核心。憑借領(lǐng)先的知識產(chǎn)權(quán)和深厚的系統(tǒng)級知識,Marvell基礎(chǔ)設(shè)施半導(dǎo)體解決方案不斷為企業(yè)、云、汽車、工業(yè)和消費類市場帶來變革。