從2008年唐洪組建飛天團隊開始做設計, 到2009阿里云團隊在北京上地簡陋的辦公室寫下第一行代碼,再到如今飛天達到5000臺集群的規模,并支撐起阿里內部大部分的數據業務,這一系列技術突破的背后,是迎難而上的執著和對發展自有技術、底層自主研發的堅持。如今的飛天已成為阿里擁抱云計算并對外提供云計算服務的堅實基礎,也使阿里與谷歌、微軟和亞馬遜比肩,從此成為世界上獨立擁有相關技術能力的屈指可數的公司之一。
2006年Amazon推出S3服務,揭開了以分布式存儲和大規模計算為標志的云計算的面紗。阿里一直關注并在思考著如何來做云計算。2008年,王堅博士加入阿里,阿里正式成立云計算公司,并決定自主研發大規模分布式計算系統――“飛天(Apsara)”。
2009年春節后上班第一天,阿里云團隊在北京上地一間簡陋的連空調都沒有的辦公室寫下第一行代碼。
而彼時,在大洋彼岸,唐洪剛從北美第四大搜索公司Ask.com跳到美國雅虎,正在埋頭于大規模分布式計算系統Hadoop。當王堅博士在美國硅谷偶遇唐洪并初次介紹“飛天”時,唐洪對王堅博士說了一句大實話:“開發飛天這件事,完全不靠譜。”就連王堅博士后來也坦承:“我覺得他是對的,世界上沒有人會覺得這個事情靠譜,因為它很難。”
時光總愛開玩笑。一年以后,唐洪遭遇了事業發展中的巨大挑戰――“2010年的時候雅虎在Hadoop上的投入也在逐漸減少,而當時雅虎已經確定了把所有與數據相關的業務和處理都搬到Hadoop上。越來越繁重的業務壓力,讓程序員們為支持線上系統疲于奔命。所以我們有很多好的想法,都無法實現。”需要重構職業路線:是放棄自己執著多年的東西去一些新領域嘗試新的技術挑戰,比如當時在硅谷火熱的社交網絡Startup;還是加入一家真正有決心和堅持的公司去共同攀登大規模分布式計算系統的技術巔峰?
而此時,盡管相對Google、微軟、Amazon這些分布式底層已經比較成熟的企業而言,阿里才剛剛起步,但阿里云的決心卻已讓“飛天”有了更大的成長空間。
一通漫長的越洋電話之后,2010年,唐洪離開硅谷,正式加盟阿里云,并帶領美國、杭州、北京多個團隊,肩負起阿里云計算整個技術底層的研發,成為剛剛兩周歲還處于雛形階段的飛天技術負責人。對于這一選擇,唐洪曾如此解釋:“世界上除了Google、微軟和Amazon,就只有阿里了,我找不到第五家公司能有決心長期投入在自主研發大規模分布式系統上。”
去IOE,飛天勢在必行
阿里的IT基因中,開始植入云計算,伴隨著一場“去IOE”運動的進行。
翻開歷史,淘寶曾啟用全亞洲最大的OracleRAC集群,阿里更是購買過3年無限制的許可,阿里在IBM小型機以及EMC SAN存儲上的投入也曾成為媒體爭相報道的事件。但隨著互聯網爆發式發展,淘寶、支付寶和阿里巴巴B2B的注冊用戶數激增,阿里只能不停地通過水平和垂直擴展架構來應對新增用戶生成的海量數據。而這種集中式數據庫的架構,使得數據庫成為了整個系統的瓶頸,越來越不適應海量數據對計算能力的巨大需求,更不用說越來越難以承受的高昂投入。阿里的“去IOE”已經勢在必行:通過自主研發的分布式系統取代集中式數據庫架構,使用MySQL + HBase取代MySQL,商用機取代小型機 + SAN。
選擇自主研發,這也是阿里云在步入云計算之路上做出的最重要的抉擇:堅持追求擁有自有的最有競爭力的核心技術。在唐洪看來,云計算是一門高技術門檻的生意,具備核心技術競爭力等于具備了在戰場上可以正面抗衡競爭對手的實力,盡管這個技術攻關的歷程非常之艱難。選擇自主研發而非采用開源Hadoop優化,也是基于一定的考慮,盡管Hadoop在離線大數據處理上具備優勢,但無法完全提供阿里云要求的大規模分布式計算與處理的能力,而目前基于飛天上線的云服務,已遠遠超出Hadoop的能力。開源可以說是一條先易后難的路,盡管一開始可以走一些捷徑,但事后在版本升級、研發上都會受頗多限制;從核心知識產權角度來看,今天無論是微軟、Amazon、或者Google的云計算平臺,都沒有采用Hadoop且不開放代碼開源,本質上都是在追求自有的核心競爭力。開源軟件無法徹底成為一個云計算底層平臺的基礎,采用開源軟件并非解決做分布式系統這個問題的一劑良方。
發展自有技術,堅持底層自主研發,如今能夠構建超級計算機的飛天已成為阿里擁抱云計算,以及對外提供云計算服務的堅實基礎。
目標5K,突破再突破
理想有多么美好,挑戰就有多么巨大。在技術上,唐洪把自主研發大規模分布式系統飛天的挑戰概括為三點。
首先,小概率事情變成常態,主要包括故障率放大、故障類型不可預知及線上診斷修復不可避免;其次,昂貴的全局同步代價,Jim Gray在1996 SIGMOD的論文里指出,競爭代價是規模增長的三次方,因此,10節點集群擴展到1000節點,同步代價有可能放大百萬倍,這就意味著兩點――性能關鍵路徑上需要避免全局同步,并與不精準的全局狀態達成妥協;第三,動態的運行環境,這個問題主要是基于線上業務,由互聯網應用的爆發式增長、服務器負載的周期性變化,及系統熱點的無時不在和瞬時轉移特性導致。
迎難而上,是突破再突破。2008年10月24日,組建飛天團隊開始做設計;2009年12月18日,飛天有了第一個應用――為阿里金融做的大規模離線處理;2010年8月24日,飛天成功地支持搜索、郵箱、大規模數據處理、彈性計算存儲等服務;2011年7月28日,阿里云自主研發的飛天云計算平臺開始以公共服務的方式對外提供云計算商業服務;同年,首屆阿里云開發者大會上,基于飛天的阿里云開放服務產品體系全面亮相;2013年3月,飛天單集群規模已達1500臺;2013年8月15日,飛天5K成功,承載著阿里巴巴集團數據業務的“開放數據處理服務(Open Data Processing Service,簡稱ODPS)”集群正式開始生產運營,單集群規模達到5000臺。
在實現單集群5000節點之后,通過上層應用ODPS,飛天已經支撐了阿里內部大部分數據業務,其中包括阿里小貸、數據魔方、阿里媽媽廣告聯盟、廣告搜索、點擊預測模型訓練、支付寶所有業務、淘寶指數、阿里無線等。2014年7月,以RESTful API方式提供數據倉庫、數據挖掘和其他數據應用服務的ODPS,正式對外開放。今天,已有近百萬應用部署在阿里云平臺上面,客戶遍及全國不同地域、不同行業領域。
取得一系列技術突破的背后,是不為人知的一場艱難的歷程,其中更大的困難在于人。召集一群能夠做這件事的人難,而召集一群能耐住寂寞為夢想實現而甘于奉獻的人更難,無數難題讓飛天人吃盡苦頭。回想一路的歷程,唐洪說:“當飛天第一天立項、從第一行代碼開始,便是帶著明知山有虎,偏向虎山行的決絕和勇氣前進的。而這一路不僅僅有阿里巴巴集團的研發人員在投入這場戰斗,還有更多的是我們的客戶、合作伙伴的支持,才能走到今天5K的目標。2013年10月25日,杭州轉塘阿里云創業創新基地專門為飛天5K設立了紀念標志,我們在這個標志上不僅留下了在項目室小黑屋封閉開發的程序員、趕著早高峰下班的開發運維人員的名字,也有每個周末都趕來陪同加班的家屬,更有把身家性命放在阿里云上的客戶的名字,其實從另一個維度來說,因為有了他們才有了今天的5K。”
未來,騰飛的阿里云計算
飛天5K的正式上線,也標志著阿里與Google、微軟和Amazon比肩,從此成為世界上獨立擁有相關技術能力的屈指可數的公司之一。
未來,唐洪看的更遠:“目前飛天所支撐的業務占有市場份額還不足1 % ,接下來的路還很漫長且艱辛。著眼未來,5K只能是飛天已經邁過的一道門檻,是阿里云一個新的起點。”
有一種追求叫自主研發!相信唐洪和這群有理想、有信仰的年輕人們在這片更加廣闊的天空中能夠更加自由的翱翔!
杭州市濱江區偉業路3號
業務熱線(微信同號):18143453325
業務郵箱:2848414880@qq.com
業務QQ:2848414880
 浙公網安備 33010802012068號