Hadoop + SQL Server + Excel = 大數(shù)據(jù)分析

2013-02-03 11:33:46來源:infoq作者:

幾個月前,微軟宣布了自己的用于大數(shù)據(jù)管理、分析和挖掘的Hadoop發(fā)布版HDInsight。InfoQ聯(lián)系到了SQL Server的高級產(chǎn)品營銷經(jīng)理Val Fontama,希望進一步了解微軟的企業(yè)級大數(shù)據(jù)到底如何。

幾個月前,微軟宣布了自己的用于大數(shù)據(jù)管理、分析和挖掘的Hadoop發(fā)布版HDInsight。InfoQ聯(lián)系到了SQL Server的高級產(chǎn)品營銷經(jīng)理Val Fontama,希望進一步了解微軟的企業(yè)級大數(shù)據(jù)到底如何。

關(guān)于企業(yè)中數(shù)據(jù)集規(guī)模的增長趨勢:

數(shù)據(jù)的海洋一直在增長。有預(yù)測表明業(yè)務(wù)信息存儲量每年都會加倍。例如,Gartner發(fā)現(xiàn)全世界的信息量每年在以最少59%的速率增長,而其中大約85%的數(shù)據(jù)是“非結(jié)構(gòu)化”的——比如視頻剪輯、RFID標簽和網(wǎng)站日志。這些非結(jié)構(gòu)化數(shù)據(jù)用傳統(tǒng)的數(shù)據(jù)管理系統(tǒng)來處理并不容易。此外,在很多場景下,客戶在實時收集新數(shù)據(jù)時發(fā)現(xiàn)數(shù)據(jù)增長速率還在增加。

客戶將需要一個與業(yè)務(wù)及所收集數(shù)據(jù)的發(fā)展相適應(yīng)的現(xiàn)代數(shù)據(jù)平臺。對全球企業(yè)而言,大數(shù)據(jù)為從所收集數(shù)據(jù)(不管是結(jié)構(gòu)化的還是非結(jié)構(gòu)化的)中找到新穎可行的觀點創(chuàng)造了大量商機。因為到最后,大數(shù)據(jù)的最大前景就是推動來自數(shù)據(jù)的、更智能的決策。而智能決策就要收集來自各類數(shù)據(jù)的觀點。
HDInsight是微軟應(yīng)對大數(shù)據(jù)的解決方案:

微軟希望通過支持Windows Server和Windows Azure的Hadoop發(fā)布版,提供可移植、性能優(yōu)越、安全且易部署等特性,促進Hadoop的應(yīng)用。微軟還將通過在HDInsight中集成Active Directory來增強Hadoop的安全性。此舉將使IT部門能夠?qū)⑼瑯拥囊恢滦园踩呗杂糜诎℉adoop集群在內(nèi)的所有IT資產(chǎn)。

此外,通過與System Center集成,HDInsight簡化了Hadoop的管理,并支持IT部門在同一面板上管理Hadoop集群、SQL Server數(shù)據(jù)庫和應(yīng)用程序。

基于Hadoop的Windows平臺應(yīng)用程序集成了如Excel、Power View和PowerPivot等微軟的商業(yè)智能(BI)工具,可以很容易地分析大量的業(yè)務(wù)信息,從而創(chuàng)造獨特的、差異化的商業(yè)價值。

為實現(xiàn)與Apache Hadoop百分之百的兼容性,微軟的Hadoop發(fā)布版HDInsight是基于Hortonworks Data Platform(HDP)構(gòu)建的。因此,客戶能夠?qū)⑵銶apReduce作業(yè)從自己的Windows服務(wù)器移到云中,甚至是移到運行在Linux上的Apache Hadoop發(fā)布版中。目前還沒有其他廠商提供該功能。此外,在Windows Server和Azure平臺上提供這些功能,也使客戶能夠利用熟悉的工具(如Excel、PowerPivot for Excel和Power View)輕松地從數(shù)據(jù)中抽取可行的觀點。
SQL Server如何適應(yīng)這種解決方案:

在幫助企業(yè)處理大數(shù)據(jù)集方面,SQL Server 2012與SQL Server 2008最重要的區(qū)別之一就是與Hadoop的兼容性。Hadoop允許用戶處理大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)并快速從中獲得觀點,而且,因為Hadoop是開源的,成本較低。Hadoop與SQL Server 2012兼容的特性是微軟與Hortonworks合作開發(fā)的,微軟最近也宣布Microsoft HDInsight Server和Windows Azure HDInsight Service已經(jīng)可以預(yù)覽,這都使用戶能夠使用微軟開發(fā)的Hadoop連接器來從數(shù)據(jù)中獲得最好的觀點。通過Hive ODBC Driver把SQL Server連接到Hadoop,客戶現(xiàn)在可以使用如PowerPivot和Power View等微軟的BI工具在SQL Server 2012中分析各種類型的數(shù)據(jù),包括非結(jié)構(gòu)化數(shù)據(jù)。此外,利用SQL Server 2012中新的Data Quality Services,客戶可以通過將原始數(shù)據(jù)轉(zhuǎn)換為適于建模的可靠且一致的數(shù)據(jù)來提高數(shù)據(jù)質(zhì)量。
微軟最近宣布了Office 2013 中的一些新特性,并介紹了開發(fā)者應(yīng)該如何利用這些特性來構(gòu)建構(gòu)建應(yīng)用和處理數(shù)據(jù)的服務(wù)。不足為奇,微軟自己在Excel正是利用這一點來提供大數(shù)據(jù)服務(wù)的:

Excel是微軟平臺上支持大數(shù)據(jù)分析的主要客戶端工具之一。在Excel 2013中,我們的主要工具是數(shù)據(jù)建模工具PowerPivot和數(shù)據(jù)可視化工具Power View,而且恰好它們都構(gòu)建進來了,無需額外下載。這支持各個層次的用戶使用熟悉的Excel界面進行自助式BI分析。

通過Excel的Hive插件,我們的HDInsight服務(wù)很容易集成Office 2013中的BI工具,使用戶能夠用熟悉的工具輕松地分析海量的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。

除了Excel之外,微軟還提供了其他的大數(shù)據(jù)交互工具:BI專業(yè)人員可以使用BI Developer Studio來設(shè)計OLAP cube或在SQL Server Analysis Services中設(shè)計可伸縮的PowerPivot模型。開發(fā)者可以繼續(xù)使用Visual Studio來開發(fā)和測試用.NET編寫的MapReduce程序。最后,IT運維人員可以使用他們目前所使用的System Center來管理HDInsight上的Hadoop集群。
總的說來,微軟的策略看起來是要為客戶使用大數(shù)據(jù)提供一種最簡單的方法——擴展現(xiàn)有工具(如SQL Server和Office等),使之能夠無縫處理新數(shù)據(jù)類型,從而允許各公司在處理新業(yè)務(wù)時能利用原有投資。

贊助商鏈接: