來源:ST社區(qū)
科多分享的大數(shù)據(jù)分析學習與研究的新挑戰(zhàn):對于習慣結構化數(shù)據(jù)研究的統(tǒng)計學來說,大數(shù)據(jù)分析顯然是一種嶄新的挑戰(zhàn)。
挑戰(zhàn)來自何方?來自于大數(shù)據(jù)的復雜性、不確定性和涌現(xiàn)性三個方面,其中復雜性最為根本。
大數(shù)據(jù)的復雜性
復雜性是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的根本所在,它主要表現(xiàn)為類型復雜性、結構復雜性和內在模式復雜性三個方面,從而使得大數(shù)據(jù)的存儲與分析產生多方面的困難。對于大數(shù)據(jù)的類型與結構的復雜性這里不再贅述,但它們決定了數(shù)據(jù)模式的多樣化,使得刻畫數(shù)據(jù)特征的模式不斷變化、呈幾何級數(shù)增加。統(tǒng)計學盡管長期以來研究復雜現(xiàn)象的數(shù)量特征,但所涉及的數(shù)據(jù)是結構化的,模式是固定化的,比起大數(shù)據(jù)要簡單得多。
因此,學習大數(shù)據(jù),我們不僅要熟悉各種類型的數(shù)據(jù)模式,還要善于把握它們之間的相互關系與作用,善于綜合利用各方面的知識(包括文本挖掘、圖像處理、信息網絡技術、心理學、社會學等等)加以研究。已有一些學者提出利用網絡來描述異質數(shù)據(jù)間的關系,同時提出了目標數(shù)據(jù)的“元路徑(Meta-Path)”概率刻畫模式。同時,由于非結構化數(shù)據(jù)通常比結構化數(shù)據(jù)包含更多的無用信息和垃圾信息,因此需要運用特定的方法來去偽存真、去粗存精,例如通過搜索引擎從非結構化數(shù)據(jù)中檢索出有用的信息等等。
大數(shù)據(jù)的不確定性
網絡大數(shù)據(jù)通常是高維的,以往的統(tǒng)計學習方法往往難以產生令人滿意的效果。復雜性必然帶來不確定性。
大數(shù)據(jù)的不確定性表現(xiàn)為數(shù)據(jù)本身的不確定性、模型的不確定性和學習的不確定性,從而給大數(shù)據(jù)建模和學習造成困難。數(shù)據(jù)的不確定性既包括原始數(shù)據(jù)的不準確,也包括數(shù)據(jù)處理過程中由各種因素所造成的在不同維度、不同尺度上的不確定性。例如阿里巴巴數(shù)據(jù)官曾經介紹,區(qū)淘寶網上購物者的性別特征就可以有十幾種判斷。雖然傳統(tǒng)的統(tǒng)計學方法主要研究不確定性數(shù)據(jù),但傳統(tǒng)數(shù)據(jù)的不確定性明顯不同于大數(shù)據(jù)的不確定性,面對海量、高維、多類型的不確定性數(shù)據(jù),傳統(tǒng)的統(tǒng)計方法顯得力不從心,無論是數(shù)據(jù)的采集、存儲、建模還是查詢、檢索和挖掘,都需要創(chuàng)新方法。大數(shù)據(jù)的不確定性必然帶來數(shù)據(jù)處理與分析模型的不確定性,但要解決這一點非常困難,有人提出了“可能世界模型”,認為應該在一定的結構規(guī)范下刻畫出數(shù)據(jù)的每一種狀態(tài),但這同樣極其困難,在實際應用中不可能存在這樣一種通用的模型結構,只能采取簡化的模型,例如獨立性假設、同分布假設等等,尤其是概率圖模型已在數(shù)據(jù)相關性建模等方面得到了廣泛的應用。
模型的不確定性又必然帶來大數(shù)據(jù)學習的不確定性,使得模型參數(shù)的學習很難找到最優(yōu)解,找到一個局部最優(yōu)解都很困難,通常只能采用近似的方法來替代。
隨著多核CPU/GPU的普及以及并行計算框架的研究,碎片化方法被普遍認為是解決網絡大數(shù)據(jù)問題的可行方法,但需要做的工作仍然非常多。近些年來,統(tǒng)計學習領域的非參數(shù)模型方法提供了一種自動學習思路,但計算過程依然復雜,如何應用到網絡大數(shù)據(jù)以及大數(shù)據(jù)培訓中仍然是個問題。
大數(shù)據(jù)的涌現(xiàn)性
涌現(xiàn)性是網絡大數(shù)據(jù)有別于其他數(shù)據(jù)的關鍵特性,是大數(shù)據(jù)動態(tài)變化、擴展、演化的結果,表現(xiàn)為模式的涌現(xiàn)性、行為的涌現(xiàn)性和智慧的涌現(xiàn)性,其在度量、研判與預測上的困難使得網絡數(shù)據(jù)難以被駕馭。
涌現(xiàn)性的背后是各種信息的交互作用,是產生新的人類行為方式、以及社會經濟規(guī)律的重要基礎。模式的涌現(xiàn)性是指網絡數(shù)據(jù)由于多尺度、異質性而表現(xiàn)出來的、在屬性和功能等方面既存在差異又相互關聯(lián)的特定模式特征,這種涌現(xiàn)性結果對于研究社會網絡模型、理解網絡瓦解原因具有重要意義。行為的涌現(xiàn)性則與數(shù)據(jù)的時序性有關,是社會網絡中個體行為基于時序分布的統(tǒng)計結果,表現(xiàn)為較大相似性個體之間容易建立社會關系,使得網絡在演化過程中自發(fā)形成相互分離的連通塊。這種涌現(xiàn)性對于研究更多的社會網絡模型、理解行為涌現(xiàn)規(guī)律具有重要意義。例如,著名網絡科學家巴拉巴斯(Barabasi)通過研究發(fā)現(xiàn),人們發(fā)送郵件的數(shù)量存在著特定的時間分布特征。智慧的涌現(xiàn)性是指網絡數(shù)據(jù)在沒有全局控制和預先定義的情況下,來自大量個體的自發(fā)語義通過互相融合和連接可以形成為有特定意義的通用語義,整個過程隨著數(shù)據(jù)的變化而持續(xù)演進。這種涌現(xiàn)性對于理解網絡語義的形成與變化具有重要意義。
總體而言,盡管近些年與大數(shù)據(jù)研究密切相關的數(shù)據(jù)庫、數(shù)據(jù)挖掘、機器學習和智能工程等領域都取得了很大的進展,但由于大數(shù)據(jù)的復雜性、不確定性和涌現(xiàn)性,使得相關研究成果難以被直接應用于學習大數(shù)據(jù)的分析研究之中。傳統(tǒng)的分析方法不能準確表示網絡大數(shù)據(jù)在異構性、交互性、時效性和突發(fā)性等方面的特點,傳統(tǒng)的“假設—模型—驗證”的統(tǒng)計方法受到了質疑,而從“數(shù)據(jù)”到“數(shù)據(jù)”的第四研究范式還沒有真正建立,因此亟需一個新的理論體系來指導,建立新的分析模型。
審核編輯 黃昊宇
-
大數(shù)據(jù)
+關注
關注
64文章
8908瀏覽量
137787
發(fā)布評論請先 登錄
相關推薦
評論