起源
Alluxio源自于加州大學伯克利AMP實驗室(也是Apache Mesos和Apache Spark的發(fā)源地)的博士研究項目,自2013年4月開源以來,已有超過100個組織機構(gòu)的近千名貢獻者參與其研究、使用以及開發(fā)中,包括阿里巴巴、Alluxio、百度、卡耐基梅隆大學(CMU)、京東、IBM、Intel、南京大學,Red Hat、騰訊、加州大學伯克利分校(UC Berkeley)和Yahoo等。
“歷史上的分布式存儲系統(tǒng),基本都是間接性創(chuàng)新,比如更快、更便宜、更容易使用,”Alluxio創(chuàng)始人兼CEO李浩源博士表示,而Alluxio是一套新邏輯上的存儲系統(tǒng)——相當于一個中間虛擬層,介于計算框架和現(xiàn)有的存儲系統(tǒng)之間。
原理
“用戶數(shù)據(jù)依舊存放在原來的各類存儲系統(tǒng)中(如Amazon S3,Microsoft Azure,OpenStack Swift,Apache HDFS,Ceph,IBM Cleversafe, OSS),Alluxio提供與各個存儲對接的驅(qū)動程序,通過統(tǒng)一的數(shù)據(jù)訪問接口向上對接計算框架(如Apache Spark,Presto,TensorFlow)。此外相對于最初的數(shù)據(jù)存儲系統(tǒng),Alluxio貼近計算,利用分布式的管理內(nèi)存或者SSD等存儲資源構(gòu)成一層計算的緩存層,對計算任務起到加速的作用并減少讀寫磁盤。
對于用戶而言,Alluxio在做讓數(shù)據(jù)標準化的事情。數(shù)據(jù)消費者如大數(shù)據(jù)分析或者機器學習算法可以不用關(guān)心數(shù)據(jù)原本在何處如何存放(云端還是專用存儲設(shè)備),只需要連接上Alluxio就可以打通數(shù)據(jù)通路?!崩詈圃床┦扛嬷?。
就好比虛擬機,虛擬機的邏輯是提供虛擬化的計算資源,而Alluxio則提供虛擬化了的數(shù)據(jù)。
李浩源表示,這樣一來,Alluxio有幾個優(yōu)勢:
第一,應用層很容易訪問混合云上的數(shù)據(jù)。將來企業(yè)用數(shù)據(jù)很可能有是一種混合的部署,一部分在公有云上(比如阿里云, 騰訊云, 華為云等)以降低成本,部分核心數(shù)據(jù)在專用存儲設(shè)備上(比如EMC ECS,IBM Cleversafe,NetApp NFS)?,F(xiàn)在Alluxio提供了統(tǒng)一的數(shù)據(jù)訪問界面之后,可以更加簡化而高效的讀取混合云而避免復雜的數(shù)據(jù)遷移以及計算驅(qū)動的數(shù)據(jù)ETL。第二,性能提升。新一代存儲架構(gòu)的一個趨勢是將存儲、計算分離的,Alluxio可以在此基礎(chǔ)上,通過算法調(diào)度數(shù)據(jù),讓熱數(shù)據(jù)離計算很近,從而提升計算效率。第三,統(tǒng)一后,可以更有效的進行數(shù)據(jù)管理。尤其是應用在機器學習、AI等需要大量數(shù)據(jù)的場景中,Alluxio可以將性能提升幾倍到十幾倍。
應用
根據(jù)公開資料,百度采用Alluxio使他們數(shù)據(jù)分析流水線的吞吐量提升了30倍。 巴克萊銀行使用Alluxio將他們的作業(yè)分析的耗時從小時級降到秒級。李浩源補充:“很多企業(yè)客戶利用Alluxio下面跑對象存儲,上層跑AI、機器學習應用,由于Alluxio解決了此前的架構(gòu)、生態(tài)系統(tǒng)問題,可以讓上層任何應用都能訪問對象存儲,目前有應用在反欺詐、手機導航路線規(guī)劃、電商推薦系統(tǒng)等場景?!?/p>
據(jù)悉,Alluxio分開源社區(qū)版和付費企業(yè)版。企業(yè)版根據(jù)不同地區(qū)、客戶使用的節(jié)點情況收取年費,在歐美市場客單價在幾十萬到百萬美元規(guī)模,客戶多集中在金融、電信、電商等行業(yè)。
而Alluxio公司方面,團隊大部分在美國。已經(jīng)于2015年獲得750萬美元A輪融資,早期投資人包括Andreessen Horowitz 等,之后會發(fā)力中國市場。