工具介紹
開源大數據生态圈
1. Hadoop HDFS、Hadoop MapReduce, HBase、Hive 漸次誕生,早期Hadoop生态圈逐步形成。
2. Hypertable是另類。它存在于Hadoop生态圈之外,但也曾經有一些用戶。
一體機數據庫/數據倉庫
IBM PureData(Netezza), OracleExadata, SAP Hana等等。
數據倉庫
Teradata AsterData, EMC GreenPlum, HP Vertica 等等。
數據集市
Style Intelligence、QlikView、 Tableau 、 國内永洪科技 Yonghong Data Mart 等等。
Yonghong Data Mart是基于自有技術研發的一款數據存儲、數據處理的軟件。針對客戶需要處理需求數據的量級不同,IT系統架構的不同和存儲系統的不同,提供了兩種解決方案供客戶選擇一種本地模式,一種是MPP模式。當需要處理的數據量級别處于TB級以下,或者采用普通存儲結構,或者單機已經足夠滿足性能需求,建議用戶選擇本地模式。當面對異構數據庫存儲系統,需要處理的數量級别在TB級和PB級以上,或者IT系統和存儲系統采用分布式,或者需要MPP模式才能滿足性能需求,基于分布式架構的并行處理模式更适合客戶的需求。
Yonghong Data Mart底層技術:
1. 分布式計算
2. 分布式通信
3. 内存計算
4. 列存儲
5. 庫内計算
前端展現
用于展現分析的前端開源工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等等。
用于展現分析商用分析工具有Cognos, BO, Microsoft, Oracle,Microstrategy,QlikView、 Tableau 、 國内永洪科技 Yonghong Z-Suite等等。
分析步驟
大數據分析的六個基本方面
1. Analytic Visualizations(可視化分析)
不管是對數據分析專家還是普通用戶,數據可視化是數據分析工具最基本的要求。可視化可以直觀的展示數據,讓數據自己說話,讓觀衆聽到結果。
2. Data Mining Algorithms(數據挖掘算法)
可視化是給人看的,數據挖掘就是給機器看的。集群、分割、孤立點分析還有其他的算法讓我們深入數據内部,挖掘價值。這些算法不僅要處理大數據的量,也要處理大數據的速度。
3. Predictive Analytic Capabilities(預測性分析能力)
數據挖掘可以讓分析員更好的理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。
4. Semantic Engines(語義引擎)
我們知道由于非結構化數據的多樣性帶來了數據分析的新的挑戰,我們需要一系列的工具去解析,提取,分析數據。語義引擎需要被設計成能夠從“文檔”中智能提取信息。
5. Data Quality and Master Data Management(數據質量和數據管理)
數據質量和數據管理是一些管理方面的最佳實踐。通過标準化的流程和工具對數據進行處理可以保證一個預先定義好的高質量的分析結果。 假如大數據真的是下一個重要的技術革新的話,我們最好把精力關注在大數據能給我們帶來的好處,而不僅僅是挑戰。 [2]
6.數據存儲,數據倉庫
數據倉庫是為了便于多維分析和多角度展示數據按特定模式進行存儲所建立起來的關系型數據庫。在商業智能系統的設計中,數據倉庫的構建是關鍵,是商業智能系統的基礎,承擔對業務系統數據整合的任務,為商業智能系統提供數據抽取、轉換和加載(ETL),并按主題對數據進行查詢和訪問,為聯機數據分析和數據挖掘提供數據平台。 [3]
分析禁區
無明确的目的
要分析一個數據,首先要明确自己的目的,為什麼要收集和分析這樣一份數據。隻有明确了目的之後,才能夠把握好接下來應該收集哪些數據,應該怎麼收集數據,應該分析哪些數據等。
時間安排不合理
數據分析也要合理安排時間,一般有幾個步驟,收集數據、整理數據、分析數據、美化表格。在做這些之前,要預估每一個步驟需要花多少時間,哪一步比較重要,需要花更多的時間等。這些都要在開始收集數據前就計劃好,然後在操作的過程中完成每一個步驟。
重收集輕
例如,做任務的時間為3個星期,卻用了兩個多星期來收集數據,最後基本沒有時間去分析,緊趕慢趕最後交上來一份沒有怎麼分析的數據。數據分析重點應該在于分析,應該以最快的速度收集完數據,才有更多的時間整理和分析,最後經過分析的數據才是最有價值的。
數據收集無确定标準
在我們開始收集數據的時候,容易犯的一個毛病就是看到什麼内容比較符合的就都收集下來。這樣的情況使得數據越來越多,表格裡文檔裡的内容越來越多,到最後一看,自己都暈了。其實在收集數據的時候也要有一個标準,什麼樣的數據是需要的,什麼數據是不符合條件的,作一個初步的判斷,這樣就可以減少整理的工作量了。
無明确分析目标
這是比較普遍的問題,收集了數據後不知道要分析哪些項目,哪些數據點才能體現出分析的目的。其實這也是前面說的目的不明确造成的,不清楚為什麼要收集這份數據,這份數據是用來做什麼用的,那就不會有一個評判标準,就沒有辦法找到數據的要點。
可視化效果差
做數據分析一般使用的是excel表格記錄,一份美觀清晰的表格不僅使我們可以清楚的看到這份數據的重點,方便查到所想要的數據。在收集數據的過程中,也可以提高收集和分析數據的效率。新型的分析工具大數據魔鏡鏡有500多種可視化效果,讓可視化效果更美觀。
應用實例
巴西世界杯關系
2014年6月28日,奧地利研究人員發表研究公報稱,通過對多家網上博彩公司長期以來的賠率、各球隊的曆史表現和球員傷病情況進行大數據分析,他們預測東道主巴西隊問鼎世界杯勝算較大。
奧地利因斯布魯克大學與維也納經濟大學的研究人員推出了一套“博彩共識模型”。根據這套大數據分析模型,巴西隊問鼎本屆世界杯的幾率為22.5%,阿根廷隊為15.8%,德國隊為13.4%。從數據上看,東道主奪冠的勝算大大超過其他國家隊。
2014巴西世界杯于7月14日淩晨落下帷幕,德國戰車1:0戰勝阿根廷,第四次捧起大力神杯。
與往屆世界杯不同的是:數據分析成為巴西世界杯賽事外的精彩看點。伴随賽場上球員的奮力角逐,大數據也在全力演繹世界杯背後的分析故事。一向以嚴謹着稱的德國隊引入專門處理大數據的足球解決方案,進行比賽數據分析,優化球隊配置,并通過分析對手數據找到比賽的“制敵”方式;谷歌、微軟、Opta等通過大數據分析預測賽果...... 大數據,不僅成為賽場上的“第12人”,也在某種程度上充當了世界杯的"預言帝"。
大數據分析邂逅世界杯,是大數據時代的必然發生,而大數據分析也将在未來改變我們生活的方方面面。



















