產(chǎn)品介紹

 

Hydra(九頭蛇),分布式任務(wù)處理系統,由社交標簽服務(wù)提供商AddThis六年前開(kāi)發(fā),已得到Apache的開(kāi)源許可,就像Hadoop一樣,只是還沒(méi)有Hadoop那樣的知名度和聲勢。Hydra的創(chuàng )造者稱(chēng),該多頭平臺非常擅長(cháng)處理一些大的數據任務(wù)——對非常大的數據集進(jìn)行實(shí)時(shí)處理

 

 

Hydra是一個(gè)大數據存儲和處理平臺,由Matt Abrams和他的AddThis同事們共同開(kāi)發(fā)完成。AddThis也就是過(guò)去的Clearspring,是開(kāi)發(fā)Web服務(wù)器窗口小部件的公司,使訪(fǎng)問(wèn)者可以通過(guò)Twitter、Facebook、Pintrest、Google +或者Instagram輕松共享他們的數據。

 

AddThis開(kāi)始逐漸擴大其業(yè)務(wù)時(shí),它對越來(lái)越多的用戶(hù)數據漸漸感到無(wú)能為力。該公司需要一個(gè)可擴展的分布式系統,對其用戶(hù)共享的這些數據進(jìn)行實(shí)時(shí)分析。那時(shí)Hadoop無(wú)法滿(mǎn)足AddThis的需求,所以它開(kāi)發(fā)了Hydra。

 

Hydra是分布式的任務(wù)處理系統,可以同時(shí)支持流處理和批處理。它利用一種基于樹(shù)的數據結構來(lái)存儲和處理具有數千個(gè)節點(diǎn)集群的數據。它具有一個(gè)基于Linux的文件系統,這使得它可以與ext3、ext4甚至ZFS兼容;它還具有作業(yè)/集群管理組件,可以自動(dòng)為集群分配新的作業(yè)和平衡已有的作業(yè);系統還可以自動(dòng)將數據備份,并自動(dòng)處理節點(diǎn)故障。

 

 

 

Hydra包括很多的組件:跨異構集群處理任務(wù)的分布式作業(yè)執行系統、可網(wǎng)絡(luò )訪(fǎng)問(wèn)的文件服務(wù)系統,還有本地備份及遠程備份(考慮到難以預防的節點(diǎn)故障)。

 

基于樹(shù)形結構使它可以在同一時(shí)間處理流數據并進(jìn)行批處理作業(yè)。AddThis工程部門(mén)的一位成員Chris Burroughs在他123日的博客中首次宣布Hydra開(kāi)源,還提供了對于Hydra精辟的描述:它攝取流數據(比如日志文件),并生成聚合樹(shù)、 摘要樹(shù)或者數據轉換樹(shù),這些樹(shù)可用來(lái)探索(小型查詢(xún)),作為機器學(xué)習的一部分(大型查詢(xún))、或者在網(wǎng)站上支持實(shí)時(shí)控制臺(大量的查詢(xún))。

 

Hydra最初是用以幫助AddThis解決自身問(wèn)題,供內部使用,以及為網(wǎng)站運營(yíng)商提供服務(wù)。

 

AddThis繼續使用Hydra來(lái)處理其大規模的數據流量,分析其客戶(hù)得到網(wǎng)站的發(fā)展趨勢。AddThis可以了解人們在線(xiàn)分享了什么,哪些話(huà)題比較熱門(mén)。社交標簽服務(wù)被超過(guò)1300萬(wàn)的網(wǎng)站使用,一個(gè)月有13億用戶(hù)訪(fǎng)問(wèn),平均每天30億訪(fǎng)問(wèn)量產(chǎn)生10TB數據,HydraAddThis的上千個(gè)網(wǎng)絡(luò )節點(diǎn)上運行著(zhù)。

 

Abrams通過(guò)郵件告訴Datanami我們處理大型數據集已經(jīng)很長(cháng)時(shí)間了,Hydra一直以來(lái)對我們都非常有用,我們覺(jué)得它以獨特的方式解決了分布式數據處理的問(wèn)題。

 

傳統的Hadoop面向批處理,而Hydra可以同時(shí)支持批處理和實(shí)時(shí)流處理。Abrams說(shuō):“Hydra支持的批處理主要側重流分析和增量數據處理,能夠使用樹(shù)形數據結構描述數據,對自然數據進(jìn)行壓縮及高效查詢(xún)和訪(fǎng)問(wèn)。Hydra可以從HDFS中生產(chǎn)和接收數據,但它在本機文件系統上完成操作,這使其可以在Hydra上靈活地使用其他服務(wù)。

 

Hydra已經(jīng)開(kāi)源,Abrams希望該軟件會(huì )被更加廣泛的使用,并得到更好的發(fā)展。這將需要一些時(shí)間,但我們相信未來(lái)我們將建成一個(gè)完善的Hydra開(kāi)源社區,這樣AddThisOS(開(kāi)源)社區都可以從Hydra未來(lái)的發(fā)展中受益。在華盛頓特區已經(jīng)有一些其他公司在使用Hydra了,我們很期待Hydra社區得到進(jìn)一步的發(fā)展。

 

2013秋天,Doug Cutting,Hadoop的創(chuàng )始人也是Cloudera首席架構師感嘆Hadoop缺乏替代品——那時(shí)Cutting說(shuō):我多么期待能有更多像Hadoop一樣的系統出現……”雖然如今Hadoop在大數據界占據了主導地位,但誰(shuí)又能說(shuō)它會(huì )是唯一的一個(gè)大數據分布式計算平臺?相信未來(lái)Hydra的發(fā)展不會(huì )令他失望,對于未來(lái)Hydra的發(fā)展,我想引用Cutting的另一句話(huà):天空才是極限。

新聞中心