凤凰全讯网网址,狮威娱乐城线上赌场,唐人博彩论坛白菜专区(中国)·官方网站

來源：ST社區(qū)

科多分享的大數(shù)據(jù)分析學習與研究的新挑戰(zhàn)：對于習慣結構化數(shù)據(jù)研究的統(tǒng)計學來說，大數(shù)據(jù)分析顯然是一種嶄新的挑戰(zhàn)。

挑戰(zhàn)來自何方?來自于大數(shù)據(jù)的復雜性、不確定性和涌現(xiàn)性三個方面，其中復雜性最為根本。

大數(shù)據(jù)的復雜性

復雜性是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的根本所在，它主要表現(xiàn)為類型復雜性、結構復雜性和內在模式復雜性三個方面，從而使得大數(shù)據(jù)的存儲與分析產生多方面的困難。對于大數(shù)據(jù)的類型與結構的復雜性這里不再贅述，但它們決定了數(shù)據(jù)模式的多樣化，使得刻畫數(shù)據(jù)特征的模式不斷變化、呈幾何級數(shù)增加。統(tǒng)計學盡管長期以來研究復雜現(xiàn)象的數(shù)量特征，但所涉及的數(shù)據(jù)是結構化的，模式是固定化的，比起大數(shù)據(jù)要簡單得多。

因此，學習大數(shù)據(jù)，我們不僅要熟悉各種類型的數(shù)據(jù)模式，還要善于把握它們之間的相互關系與作用，善于綜合利用各方面的知識(包括文本挖掘、圖像處理、信息網絡技術、心理學、社會學等等)加以研究。已有一些學者提出利用網絡來描述異質數(shù)據(jù)間的關系，同時提出了目標數(shù)據(jù)的“元路徑(Meta－Path)”概率刻畫模式。同時，由于非結構化數(shù)據(jù)通常比結構化數(shù)據(jù)包含更多的無用信息和垃圾信息，因此需要運用特定的方法來去偽存真、去粗存精，例如通過搜索引擎從非結構化數(shù)據(jù)中檢索出有用的信息等等。

大數(shù)據(jù)的不確定性

網絡大數(shù)據(jù)通常是高維的，以往的統(tǒng)計學習方法往往難以產生令人滿意的效果。復雜性必然帶來不確定性。

大數(shù)據(jù)的不確定性表現(xiàn)為數(shù)據(jù)本身的不確定性、模型的不確定性和學習的不確定性，從而給大數(shù)據(jù)建模和學習造成困難。數(shù)據(jù)的不確定性既包括原始數(shù)據(jù)的不準確，也包括數(shù)據(jù)處理過程中由各種因素所造成的在不同維度、不同尺度上的不確定性。例如阿里巴巴數(shù)據(jù)官曾經介紹，區(qū)淘寶網上購物者的性別特征就可以有十幾種判斷。雖然傳統(tǒng)的統(tǒng)計學方法主要研究不確定性數(shù)據(jù)，但傳統(tǒng)數(shù)據(jù)的不確定性明顯不同于大數(shù)據(jù)的不確定性，面對海量、高維、多類型的不確定性數(shù)據(jù)，傳統(tǒng)的統(tǒng)計方法顯得力不從心，無論是數(shù)據(jù)的采集、存儲、建模還是查詢、檢索和挖掘，都需要創(chuàng)新方法。大數(shù)據(jù)的不確定性必然帶來數(shù)據(jù)處理與分析模型的不確定性，但要解決這一點非常困難，有人提出了“可能世界模型”，認為應該在一定的結構規(guī)范下刻畫出數(shù)據(jù)的每一種狀態(tài)，但這同樣極其困難，在實際應用中不可能存在這樣一種通用的模型結構，只能采取簡化的模型，例如獨立性假設、同分布假設等等，尤其是概率圖模型已在數(shù)據(jù)相關性建模等方面得到了廣泛的應用。

模型的不確定性又必然帶來大數(shù)據(jù)學習的不確定性，使得模型參數(shù)的學習很難找到最優(yōu)解，找到一個局部最優(yōu)解都很困難，通常只能采用近似的方法來替代。

隨著多核CPU/GPU的普及以及并行計算框架的研究，碎片化方法被普遍認為是解決網絡大數(shù)據(jù)問題的可行方法，但需要做的工作仍然非常多。近些年來，統(tǒng)計學習領域的非參數(shù)模型方法提供了一種自動學習思路，但計算過程依然復雜，如何應用到網絡大數(shù)據(jù)以及大數(shù)據(jù)培訓中仍然是個問題。

大數(shù)據(jù)的涌現(xiàn)性

涌現(xiàn)性是網絡大數(shù)據(jù)有別于其他數(shù)據(jù)的關鍵特性，是大數(shù)據(jù)動態(tài)變化、擴展、演化的結果，表現(xiàn)為模式的涌現(xiàn)性、行為的涌現(xiàn)性和智慧的涌現(xiàn)性，其在度量、研判與預測上的困難使得網絡數(shù)據(jù)難以被駕馭。

涌現(xiàn)性的背后是各種信息的交互作用，是產生新的人類行為方式、以及社會經濟規(guī)律的重要基礎。模式的涌現(xiàn)性是指網絡數(shù)據(jù)由于多尺度、異質性而表現(xiàn)出來的、在屬性和功能等方面既存在差異又相互關聯(lián)的特定模式特征，這種涌現(xiàn)性結果對于研究社會網絡模型、理解網絡瓦解原因具有重要意義。行為的涌現(xiàn)性則與數(shù)據(jù)的時序性有關，是社會網絡中個體行為基于時序分布的統(tǒng)計結果，表現(xiàn)為較大相似性個體之間容易建立社會關系，使得網絡在演化過程中自發(fā)形成相互分離的連通塊。這種涌現(xiàn)性對于研究更多的社會網絡模型、理解行為涌現(xiàn)規(guī)律具有重要意義。例如，著名網絡科學家巴拉巴斯(Barabasi)通過研究發(fā)現(xiàn)，人們發(fā)送郵件的數(shù)量存在著特定的時間分布特征。智慧的涌現(xiàn)性是指網絡數(shù)據(jù)在沒有全局控制和預先定義的情況下，來自大量個體的自發(fā)語義通過互相融合和連接可以形成為有特定意義的通用語義，整個過程隨著數(shù)據(jù)的變化而持續(xù)演進。這種涌現(xiàn)性對于理解網絡語義的形成與變化具有重要意義。

總體而言，盡管近些年與大數(shù)據(jù)研究密切相關的數(shù)據(jù)庫、數(shù)據(jù)挖掘、機器學習和智能工程等領域都取得了很大的進展，但由于大數(shù)據(jù)的復雜性、不確定性和涌現(xiàn)性，使得相關研究成果難以被直接應用于學習大數(shù)據(jù)的分析研究之中。傳統(tǒng)的分析方法不能準確表示網絡大數(shù)據(jù)在異構性、交互性、時效性和突發(fā)性等方面的特點，傳統(tǒng)的“假設—模型—驗證”的統(tǒng)計方法受到了質疑，而從“數(shù)據(jù)”到“數(shù)據(jù)”的第四研究范式還沒有真正建立，因此亟需一個新的理論體系來指導，建立新的分析模型。

審核編輯黃昊宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

大數(shù)據(jù)

大數(shù)據(jù)

+關注

關注
64

文章
8908

瀏覽量
137787

AFE5808A串并變換之后數(shù)據(jù)錯位，輸出結果具有不確定性，為什么？

AFE5808A串并變換之后數(shù)據(jù)錯位，輸出結果具有不確定性，求問可能的原因有哪些？

發(fā)表于 01-01 07:23

NVIDIA助力百度提升數(shù)據(jù)分析效能

、數(shù)據(jù)分析師、運營團隊以及銷售人員等。過去他們不得不編寫繁雜的查詢語句，由此耗費掉大量的時間與精力。百度廣告業(yè)務的重要性和復雜性，致使相關的業(yè)務數(shù)據(jù)每月會有超過 200 個迭代更新，用

發(fā)表于 11-20 10:06 ?256次閱讀

科技云報到：數(shù)字化轉型，從不確定性到確定性的關鍵路徑

科技云報到：數(shù)字化轉型，從不確定性到確定性的關鍵路徑

發(fā)表于 11-16 16:52 ?397次閱讀

科技云報到：數(shù)字化轉型，從<b class='flag-5'>不確定性</b>到<b class='flag-5'>確定性</b>的關鍵路徑

raid 在大數(shù)據(jù)分析中的應用

RAID（Redundant Array of Independent Disks，獨立磁盤冗余陣列）在大數(shù)據(jù)分析中的應用主要體現(xiàn)在提高存儲系統(tǒng)的性能、可靠性和容量上。以下是RAID在大數(shù)據(jù)分析中

發(fā)表于 11-12 09:44 ?312次閱讀

魯棒性算法在數(shù)據(jù)處理中的應用

一、魯棒性算法的基本概念魯棒性算法是指在面對數(shù)據(jù)中的異常值、噪聲和不確定性時，仍能保持穩(wěn)定性能的算法。這類算法的核心思想是提高算法對

發(fā)表于 11-11 10:22 ?570次閱讀

魯棒性在機器學習中的重要性

金融風險評估。這些應用場景對模型的魯棒性提出了極高的要求。魯棒性的定義魯棒性通常被定義為系統(tǒng)在面對不確定性和變化時仍能保持其功能的能力。在機器學

發(fā)表于 11-11 10:19 ?560次閱讀

emc技術在大數(shù)據(jù)分析中的角色

在當今這個數(shù)據(jù)驅動的世界中，大數(shù)據(jù)分析已經成為企業(yè)獲取洞察力、優(yōu)化業(yè)務流程和提高競爭力的關鍵工具。隨著數(shù)據(jù)量的爆炸性增長，企業(yè)面臨著如何有效存儲、處理和

發(fā)表于 11-01 15:22 ?335次閱讀

云計算在大數(shù)據(jù)分析中的應用

云計算在大數(shù)據(jù)分析中的應用廣泛且深入，它為用戶提供了存儲、計算、分析和預測的強大能力。以下是對云計算在大數(shù)據(jù)分析中應用的介紹：一、存儲和處理海量數(shù)據(jù) 云計算提供了強大的存儲和計算能力

發(fā)表于 10-24 09:18 ?602次閱讀

IP 地址大數(shù)據(jù)分析如何進行網絡優(yōu)化?

一、大數(shù)據(jù)分析在網絡優(yōu)化中的作用 1.流量分析 大數(shù)據(jù)分析可以對網絡中的流量進行實時監(jiān)測和分析，了解網絡的使用情況和流量趨勢。通過對流量數(shù)據(jù)

發(fā)表于 10-09 15:32 ?306次閱讀

計及多重不確定性的規(guī)模化電動汽車接入配電網調度方法及解決方案

摘要:規(guī)模日益增長的電動汽車和可再生能源帶來的不確定性給配電網的安全運營帶來了嚴峻挑戰(zhàn)。為綜合考慮多重不確定性、平衡運營成本與系統(tǒng)可靠性,首先,提出一種基于分布魯棒聯(lián)合機會約束的電動汽

發(fā)表于 09-14 15:26 ?432次閱讀

機器學習在數(shù)據(jù)分析中的應用

隨著大數(shù)據(jù)時代的到來，數(shù)據(jù)量的爆炸性增長對數(shù)據(jù)分析提出了更高的要求。機器學習作為一種強大的工具，通過訓練模型從

發(fā)表于 07-02 11:22 ?806次閱讀

　相對于人工的不確定性，機器人碼垛有何優(yōu)勢

?在現(xiàn)代工業(yè)生產中，碼垛是一項至關重要的任務，它涉及到將不同形狀、大小和重量的物品進行有序地堆疊，以便于后續(xù)的運輸和儲存。然而，傳統(tǒng)的人工碼垛方式存在著諸多不確定性，這些不確定性可能源自工人的疲勞

發(fā)表于 06-19 14:45 ?298次閱讀

什么是嵌入式實時系統(tǒng)的確定性？簡析EDMS中的確定性

ETAS Deterministic Middleware Solution點擊跳轉(EDMS，前身為AOS) 確定性中間件解決方案，是一個中間件框架，旨在面向汽車領域內應用程序的獨特挑戰(zhàn)和需求

發(fā)表于 04-15 11:22 ?1309次閱讀

硬件工程師在可靠性設計中所面臨的挑戰(zhàn)及解決之道

Course硬件電路可靠性設計HardwareEngineer硬件電路工程師在進行可靠性設計時，常常會陷入一系列煩惱之中。這些挑戰(zhàn)包括成本、時間壓力、可靠性預測的

發(fā)表于 03-23 08:16 ?1161次閱讀

FMEA與智能機器人：提升機器人可靠性與安全性的關鍵

隨著科技的飛速發(fā)展，智能機器人已經深入到我們生活的方方面面，從工業(yè)生產到家庭服務，從深海探險到太空探索，處處都有它們的身影。然而，隨著應用的日益廣泛，機器人系統(tǒng)的復雜性和不確定性也在增加，如何確保

發(fā)表于 03-22 11:07 ?699次閱讀

那曲檬骨新材料有限公司

搜索歷史

大數(shù)據(jù)分析學習的挑戰(zhàn)：復雜性、不確定性及涌現(xiàn)性

評論

AFE5808A串并變換之后數(shù)據(jù)錯位，輸出結果具有不確定性，為什么？

NVIDIA助力百度提升數(shù)據(jù)分析效能

科技云報到：數(shù)字化轉型，從不確定性到確定性的關鍵路徑

raid 在大數(shù)據(jù)分析中的應用

魯棒性算法在數(shù)據(jù)處理中的應用

魯棒性在機器學習中的重要性

emc技術在大數(shù)據(jù)分析中的角色

云計算在大數(shù)據(jù)分析中的應用

IP 地址大數(shù)據(jù)分析如何進行網絡優(yōu)化?

計及多重不確定性的規(guī)模化電動汽車接入配電網調度方法及解決方案

機器學習在數(shù)據(jù)分析中的應用

相對于人工的不確定性，機器人碼垛有何優(yōu)勢

什么是嵌入式實時系統(tǒng)的確定性？簡析EDMS中的確定性

硬件工程師在可靠性設計中所面臨的挑戰(zhàn)及解決之道

FMEA與智能機器人：提升機器人可靠性與安全性的關鍵