民革中央網站>>團結雜志>>往期目錄文章庫>>2018>>2018第三期
正確認識大數據與數據處理     宋余慶    2018年08月27日09:28

        伴隨著信息技術的革命,人類進入信息化社會、大數據時代。面對新時代大數據問題,我們需要全面理解大數據及其時代特征、大數據使用誤區、大數據有益的價值啟示等相關問題,進而正確理解依靠大數據提升決策思維能力的有效途徑。

  信息化社會、大數據時代的到來,對社會的各個領域產生深刻影響,給學界帶來新的數據處理與分析要求,也為人們更加有效決策分析提供數據支撐和數據處理技術。使用好大數據,對人類生活和工作帶來許多便利,但並不像社會炒作的那樣神奇。

  一、正確認識大數據的內涵及特征

  2008年9月4日,《自然》雜志刊登了一個名為“Big Data”的專輯,首次系統提出“大數據”概念。從2009年開始,“大數據”就成為互聯網信息技術行業的流行詞匯。所謂大數據,是指具有數據體量巨大(Volume)﹔數據的類型繁多(Variety)﹔有潛在數據價值(Value)特點的數據。大數據這個學界名詞只是表達數據量的巨大和數據類型的繁多。

  其實,自從有了人類活動就有了數據的積累。隨著數據的積累,數據量也在不斷增加。自20世紀50年代中期電子計算機問世后,數據處理能力有了革命性的發展,70年代后期互聯網(InterNet)出現,數據傳播有了巨大變革。這兩大變革,使得電子數據量急增,使人類日常生活和工作的數據大量、全面、長久地保存,形成信息化社會的大數據。這裡大數據的概念不僅指海量數據本身,還包含著學界面向大數據的各類大數據系統的數據處理、數據分析等技術與方法。

  數據處理是對數據的採集、存儲、檢索、加工、變換和傳輸。其基本目的是從大量的、雜亂無章的、難以理解的數據中抽取並推導出對於某些特定的人們來說是有價值、有意義的數據。包括對各種原始數據的分析、整理、計算、編輯等的加工和處理。其中,數據分析是指用適當的分析方法對收集來的大量數據進行分析,為提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。目前,主要的數據分析方法有:統計分析法、情報分析法和數據挖掘法。其中,數據挖掘主要適用於大數據分析。大數據需要學界研究適合其特點的數據處理和數據分析技術與方法,並設計開發出相應的大數據分析軟件。

  幾個典型案例可以讓我們理解數據分析的作用。有情報機構根據1950年6月28日毛澤東就美國入朝發表講話、同日周恩來代表中國政府發表聲明、29日《人民日報》的社論,以及隨后的各民主黨派的聲明、7月6日周恩來再次發表聲明、9月30日周恩來又發表演說公開對美國政府提出嚴正警告等信息分析,對“中國是否出兵朝鮮”進行預測,得出的結論隻有一句話,即“中國將出兵朝鮮”﹔美國沃爾瑪連鎖店超市購買數據進行關聯分析,得出購買尿布者有30-40%購買者同時購買啤酒,超市決定將尿布和啤酒赫然擺在一起出售,這個奇怪的舉措使尿布和啤酒的銷量雙雙增加了。美國沃爾瑪連鎖店超市購買數據的關聯分析就是典型的大數據分析應用。

  二、當前認識大數據存在的誤區

  有人說誰掌握了大數據,就能夠對社會、經濟活動做到全知,進而能夠“預知”社會、經濟的未來,甚至能夠“全能性”地主宰社會,但這些都是關於“大數據”的認識誤區。我以為人們需要從以下幾個方面提升認識,才能正確認識大數據。

  一是要正確認識大數據與大數據分析處理技術。數據分析是當今信息化社會、大數據時代的重要技術,尤其是數據挖掘、信息檢索技術是目前大數據應用的重要技術。大數據隻有通過其分析技術才能有效地運用到人類社會、經濟各個領域,大數據才能夠為人類所用。

  二是要正確認識大數據與自己的關系。信息化社會,大數據跟每個人都有關,每個人的活動都會存貯在各個信息載體之中。但並非每個人都需要大數據分析技術,因為盡管大數據分析可以應用在人類社會所有領域,但隻有需要應用大數據的人才需要進行大數據分析。

  三是要正確認識並不是所有大數據都可以進行數據分析。信息化社會,並非所有數據存貯時就考慮了數據應用問題,這些數據在應用時需要進行專門的數據處理。大數據包括了結構化與非結構化不同數據。目前數據分析方法的局限,並不能對當下所有系統大數據直接進行分析,需要學界研究新的數據處理與分析方法,實現其大數據應用。

  四是不要將大數據與數據處理軟件混為一談。目前有很多大數據分析的工具軟件,如:Hadoop、Ever String、python等,這些都是應大數據時代數據處理與分析要求由數據分析公司提供的專門軟件。這些軟件及其服務僅僅是相關公司提供的大數據分析工具,並不表明這些公司和軟件就是大數據。

  五是大數據分析結果只能作為決策參考。對於大數據分析的價值,有兩種觀點,一種觀點認為大數據分析難以對人的行為做出精確預測,它只能是一種發生某種事件可能的概率﹔另一種觀點認為,大數據分析關注的是相關關系而非因果關系,這就限制了大數據在一些需要確定的、置信度非常高的場景中使用,尤其在信貸風控,保險的理賠等。目前,人類還不能完全依靠大數據分析結果來決策自己的行動。

  三、大數據給人類帶來的價值啟示

  大數據分析就是數據分析,是對規模巨大的數據進行分析,具體是在已有的海量數據中尋找模式,相關性和其他有用的信息,其分析結果可以幫助人們更好地適應變化,並做出更明智的決策。信息化社會各個領域存在的大數據,可以面向不同需要進行大數據分析,其結果能夠幫助我們更好地認識社會現象並做出各種事務發展預測和人類行動決策。如:社會和經濟發展預測、病人疾病預后分析、商場進貨決策等。

  我們要認識到大數據分析結果可以起到參考作用,而不是絕對作用。人們可以運用大數據分析結果作為預測和決策之參考。數據分析只是從數據本身進行分析並對事物發展進行預測,可以作為人們做決策的參考。我們可以應用大數據分析技術為自己的工作和生活服務提供決策咨詢和參考。

  我們要認識到大數據分析已經進入社會生活多個領域。人類活動數據已經保存在社會生活各個領域。麥肯錫公司發現並聲稱,如果美國醫療產業採用大數據,全美醫療費用將削減 8%。有資料表明,醫療數據量巨大,數據類型復雜,到2020年,醫療數據將增至35ZB,相當於2009年數據量的44倍。如果在醫療領域較好地應用大數據分析,將給人類健康帶來福音。我們可以應用大數據分析技術為自己感興趣的領域服務。

  我們要認識到大數據分析在經濟領域的重要任用。麥肯錫公司提到,通過減少詐騙訴訟和增加稅收,歐洲公共部門在運行效率方面可節省一千億歐元。2017年江蘇無錫高建業790萬元的重大疾病保險詐騙案,如果在保險就醫海量信息中應用大數據分析技術,就會及時發現並得到提示,以杜絕騙保案的發生。我們應該相信大數據在經濟領域所發揮的咨詢作用,尤其是異常行為分析和識別,自覺規范自己在經濟領域的行為,做依法守規的社會公民。

  我們要認識到將來決策行為會越來越依靠數據分析。例如,麥肯錫公司預測,到 2019 年,全球將缺少高達19萬可處理大數據的科學家。這個分析結果預示著大數據處理人才需求將與日俱增。這將為全球高校調整辦學專業提供決策咨詢。我們應該相信大數據分析在決策領域的重要參考作用。

  我們要認識到大數據分析結果具有許多的不確定性,杜絕炒作,慎防大數據欺騙。《2018中國大數據發展報告》(國家信息中心發布)中說,在2017年,成功融資的數字經濟類企業數量延續了這幾年的穩步增長,較上一年增幅近20%。大數據題材炒作引起社會投融資的巨增。有人強烈提醒,不要輕信大數據炒作。僅憑大數據分析就把幾十萬元甚至上百萬元借出去,這無異於是一場賭博。我們應該具備投資定律,冷靜看待大數據市場,避免盲目投資。■

  (宋余慶,江蘇大學副校長,民革中央孫中山研究會副會長/責編 劉玉霞)

專題推薦

  • 民革十四屆三中全會
  • 孫中山與黃埔軍校——紀念黃埔軍校建校100周年學術研討會
  • 2024全國兩會民革參政議政專題
  • 新開局 新面貌 新作為聚焦民革十四屆二中全會
  • “凝心鑄魂強根基、團結奮進新征程”主題教育專題報道
  • 民革小小圖
  • 組織換屆