幾個月前,微軟宣布了自己的用于大數據管理、分析和挖掘的Hadoop發布版HDInsight。InfoQ聯系到了SQL Server的高級產品營銷經理Val Fontama,希望進一步了解微軟的企業級大數據到底如何。
關于企業中數據集規模的增長趨勢:
數據的海洋一直在增長。有預測表明業務信息存儲量每年都會加倍。例如,Gartner發現全世界的信息量每年在以最少59%的速率增長,而其中大約85%的數據是“非結構化”的——比如視頻剪輯、RFID標簽和網站日志。這些非結構化數據用傳統的數據管理系統來處理并不容易。此外,在很多場景下,客戶在實時收集新數據時發現數據增長速率還在增加。
客戶將需要一個與業務及所收集數據的發展相適應的現代數據平臺。對全球企業而言,大數據為從所收集數據(不管是結構化的還是非結構化的)中找到新穎可行的觀點創造了大量商機。因為到最后,大數據的最大前景就是推動來自數據的、更智能的決策。而智能決策就要收集來自各類數據的觀點。
HDInsight是微軟應對大數據的解決方案:
微軟希望通過支持Windows Server和Windows Azure的Hadoop發布版,提供可移植、性能優越、安全且易部署等特性,促進Hadoop的應用。微軟還將通過在HDInsight中集成Active Directory來增強Hadoop的安全性。此舉將使IT部門能夠將同樣的一致性安全策略用于包括Hadoop集群在內的所有IT資產。
此外,通過與System Center集成,HDInsight簡化了Hadoop的管理,并支持IT部門在同一面板上管理Hadoop集群、SQL Server數據庫和應用程序。
基于Hadoop的Windows平臺應用程序集成了如Excel、Power View和PowerPivot等微軟的商業智能(BI)工具,可以很容易地分析大量的業務信息,從而創造獨特的、差異化的商業價值。
為實現與Apache Hadoop百分之百的兼容性,微軟的Hadoop發布版HDInsight是基于Hortonworks Data Platform(HDP)構建的。因此,客戶能夠將其MapReduce作業從自己的Windows服務器移到云中,甚至是移到運行在Linux上的Apache Hadoop發布版中。目前還沒有其他廠商提供該功能。此外,在Windows Server和Azure平臺上提供這些功能,也使客戶能夠利用熟悉的工具(如Excel、PowerPivot for Excel和Power View)輕松地從數據中抽取可行的觀點。
SQL Server如何適應這種解決方案:
在幫助企業處理大數據集方面,SQL Server 2012與SQL Server 2008最重要的區別之一就是與Hadoop的兼容性。Hadoop允許用戶處理大量的結構化和非結構化數據并快速從中獲得觀點,而且,因為Hadoop是開源的,成本較低。Hadoop與SQL Server 2012兼容的特性是微軟與Hortonworks合作開發的,微軟最近也宣布Microsoft HDInsight Server和Windows Azure HDInsight Service已經可以預覽,這都使用戶能夠使用微軟開發的Hadoop連接器來從數據中獲得最好的觀點。通過Hive ODBC Driver把SQL Server連接到Hadoop,客戶現在可以使用如PowerPivot和Power View等微軟的BI工具在SQL Server 2012中分析各種類型的數據,包括非結構化數據。此外,利用SQL Server 2012中新的Data Quality Services,客戶可以通過將原始數據轉換為適于建模的可靠且一致的數據來提高數據質量。
微軟最近宣布了Office 2013 中的一些新特性,并介紹了開發者應該如何利用這些特性來構建構建應用和處理數據的服務。不足為奇,微軟自己在Excel正是利用這一點來提供大數據服務的:
Excel是微軟平臺上支持大數據分析的主要客戶端工具之一。在Excel 2013中,我們的主要工具是數據建模工具PowerPivot和數據可視化工具Power View,而且恰好它們都構建進來了,無需額外下載。這支持各個層次的用戶使用熟悉的Excel界面進行自助式BI分析。
通過Excel的Hive插件,我們的HDInsight服務很容易集成Office 2013中的BI工具,使用戶能夠用熟悉的工具輕松地分析海量的結構化或非結構化數據。
除了Excel之外,微軟還提供了其他的大數據交互工具:BI專業人員可以使用BI Developer Studio來設計OLAP cube或在SQL Server Analysis Services中設計可伸縮的PowerPivot模型。開發者可以繼續使用Visual Studio來開發和測試用.NET編寫的MapReduce程序。最后,IT運維人員可以使用他們目前所使用的System Center來管理HDInsight上的Hadoop集群。
總的說來,微軟的策略看起來是要為客戶使用大數據提供一種最簡單的方法——擴展現有工具(如SQL Server和Office等),使之能夠無縫處理新數據類型,從而允許各公司在處理新業務時能利用原有投資。