大數據(Big Data)在物理學、生物學、環境生態學等領域以及軍事、金融、通信等行業存在已有時日,隨著近年來互聯網和信息行業的發展而引起人們的關注。大數據已經成為云計算、物聯網之后IT行業又一大顛覆性的技術革命。
云計算主要為數據資產提供了保管、訪問的場所和渠道,而數據才是真正有價值的資產。企業內部的經營信息、物聯網世界中的商品物流信息、互聯網世界中的人與人交互信息、位置信息等,其數量將遠遠超越現有企業IT架構和基礎設施的承載能力,實時性要求也將大大超越現有的計算能力。如何應用這些數據資產,使其為國家治理、企業決策乃至個人生活服務,是大數據的核心議題,也是云計算內在的靈魂和必然的發展方向。
1、什么是大數據
最早提出大數據時代到來的是全球知名咨詢公司麥肯錫。進入2012年之后,“大數據”一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。人們也越來越強烈地意識到數據對于各行各業發展的重要性。正如《紐約時報》2012年2月的一篇專欄中所稱,“大數據”時代已經降臨,在商業、經濟及其他領域中,決策將日益基于數據和分析而做出,而并非基于經驗和直覺。
“大數據”在互聯網行業中指的是這樣一種現象:互聯網公司在日常運營中生成、積累的用戶網絡行為的非結構化和半結構化數據。這些數據的規模如此龐大,以至于不能用G或T來衡量。例如,一天當中,互聯網產生的全部數據可以刻滿1.68億張DVD,發出的郵件有2900多億封,發出的社區帖子達200多萬個,賣出的手機為37.8萬臺……
目前,數據量的衡量單位已經從 TB(1TB=1024 GB)級別躍升到了 PB(1PB=1024 TB)、EB (1EB=1024 PB)乃至ZB(1ZB=1024 EB)級別。國際數據公司(International Data Corporation,IDC)的研究結果表明,2008年全球產生的數據量為0.49 ZB,2009年數據量為0.8 ZB,2010年增長為1.2 ZB,2011年的數據量更是高達1.82 ZB,相當于全球每人產生200 GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200 PB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界產生的數據規模將達到今天的44倍。
2、大數據的基本特征
大數據主要具有以下四大基本特征。
數據量大。目前,我們對大數據的起始計量單位至少是 P(210T=1024 T≈1000 T)、E (220T=1048576 T≈100萬T)或Z(230=1073741824≈10億T)。
種類繁多。數據種類包括網絡日志、音頻、視頻、圖片、地理位置信息等,多種類型的數據對數據處理能力提出了更高的要求。
價值密度低。隨著今后物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低。如何通過強大的算法更迅速地完成數據的價值“提純”,是大數據時代亟待解決的難題。
速度快、實效性強。處理速度快、實效性要求高,這是大數據區別于傳統數據挖掘最顯著的特征。
由此可見,大數據時代對人類的數據駕馭能力提出了新的挑戰,也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間和機遇。
3、大數據的影響
大數據是信息通信技術發展積累至今,按照自身技術發展邏輯,從提高生產效率向更高級智能階段的自然生長。無處不在的信息感知和采集終端為人們采集了海量的數據,而以云計算為代表的計算技術的不斷發展,為人們提供了強大的計算能力,這就圍繞個人以及組織的行為構建起了一個與物質世界平行的數字世界。
大數據雖然孕育于信息通信技術的日漸普遍和成熟,但它對社會經濟生活產生的影響絕不限于技術層面,更本質上,它是為看待世界提供了一種全新的方法,即決策行為將日益基于數據分析而做出,而不像過去更多地憑借經驗和直覺做出。
大數據可能帶來的巨大價值正漸漸被人們所認可。它通過技術的創新與發展,以及數據的全面感知、收集、分析、共享,為人們提供了一種全新的看待世界的方法。更多地基于事實與數據做出決策,可以預見,這樣的思維方式將推動一些習慣于“差不多”運行的社會發生巨大變革。