數據是大數據產業發展的基礎,具有商業價值的數據能幫助企業洞察客戶、數字化運營、風險管控、精準營銷、預測和決策等。具有商業價值的數據,配合商業分析,能真正幫助企業提升業務,創造出新的價值。尤其是把不同維度的數據關聯在一起,交叉挖掘分析,就有可能發生“化學反應”,因共享而增值。
全球的大數據市場還不成熟,很多大數據企業擁有的數據具有片段性,難以形成完整且具有商業價值的數據。商用化的數據供給和數據需求存在較大的差距,數據普遍具有孤立性,缺乏流動性,或者因未經清洗、加工融合而無法發揮價值。并且隨著數據發掘的不斷深入,在各行業的應用不斷推進,大數據安全的“脆弱性”逐漸凸顯。
隨著區塊鏈時代到來,正發生著由技術權威壟斷到去中心化的本質轉變,大數據和分布式的結構二者存在密不可分的關聯。
數據源層面:數據獲取門檻較高,數據不完整且割裂封閉,每個數據源只能提供部分可用信息;數據誤差大,缺乏多重數據源校正,精確度難以保證。
數據產品層面:產品化程度低,接口無標準且接入復雜;解決問題方式單一,效果無法衡量。
數據安全層面:欠缺合規體系,數據來源難追溯,前置授權難獲知。
大數據+區塊鏈
榕樹網絡去中心化的核心優勢是通過契約關系形成智能合約或智能資產,區塊鏈成為數據價值鏈中的一個萬能賬本。鏈上記錄保證任何數據無法被非合規復制、截流、沉淀或修改,數據價值不存在被盜用及弱化,從而極大降低數據源對榕樹網絡的信任成本。另一個優勢是突破地緣和時間限制,提高各參與方的透明性、延展性和效率,促使產生更大的數據流動性和更高的數據價值。
在此之上, 榕樹網絡數據為人工智能的數據供應基礎設施,滿足其應用開發的幾乎所有數據源供給、數據服務采購以及高性能的分布式數據處理能力,為人工智能的未來提供充足的燃料。
榕樹網絡一方面加速工具和平臺的落地,一方面持續的評估現有底層公鏈對大數據場景的適用性,尤其是支持和外部數據交互的智能合約。榕樹網絡將會在 2018 年第四季度發布底層公鏈評估結果并征求社區意見,來決定是否投入開發面向大數據行業的垂直公鏈。
數據連接平臺
1 數據連接平臺
數據連接平臺致力于成為全球最好的大數據超級應用服務平臺。平臺將整合全球所有優質數據源,形成一站式數據網關接口,通過連接一切數據,構建多方安全的數據融合服務生態,以全息視角為企業提供多維數據洞察應用,專注于打造全球最優秀的一站式數據生態體系。
數據連接平臺以大數據和區塊鏈技術為驅動力,以去中心化為本質,實現全域 ID-Mapping。從數據的角度出發,為全球企業解決業務難題。
目前數據連接平臺對外開放使用,逐步對接全球主流數據源,逐步開放部分數據類型包含電商數據、運營商數據、政府數據、金融數據、互聯網行為數據等各種主流數據源。
2 數據源評價平臺
為保證讓各大數據源的接入方和應用方放心的使用源頭數據,榕樹網絡將構建數據源評價體系,并將進入評價體系內的數據源評分結果實時上鏈。數據代理方或者數據的使用企業可以實時查看各類數據源的評分等級并據此選擇接入的數據源,數據源也可以依據自己的評分不斷的去優化完善自身的數據精準度。
2.1 標準數據源評分體系
從數據的準確率、覆蓋率、時效性、數據源性能等角度構建一個評價體系,用于數據科學性客觀性的評級,以市場各大標準數據源為評級案例,評級系統可覆蓋各大銀行數據、銀聯數據、運營商數據、互聯網電商數據等。榕樹網絡會定期的對各類標準數據源進行階段性的評分并實時上鏈,數據源評價體系的公開性、不可更改性,可推進數據源本身處理數據問題的嚴謹性和規范性,也為接入方接入優質數據源提供了科學性的可量化標準。
2.2 非標準數據源評分體系
除去數據市場上眾所周知的壟斷性數據源,還會有各類爬蟲數據,針對這些非標準化的數據源頭,榕樹網絡也會依據自身的數據基礎建立一套針對各類非標準數據源的評分體系,并將評分結果定期上鏈。
數據治理平臺
數據價值的準確與否在于數據本身質量的好壞。數據的清洗理一直是大數據應用的關鍵環節,所謂 garbage in,garbage out,只有將數據治理充分,排除噪音,才能為后續的數據挖掘建模打下堅實的基礎。
1 治理規范
榕樹網絡在數據治理上提供了一系列規范和工具,供數據參與方和社區使用。
數據完整度規范:評估字段完整度的規范。格式化的數據由不同的字段組成,每一條數據字段是否齊全,字段不全的數據占比多少;每一條數據的每一個字段是否有值,無值的占比多少等等完整度問題,這些都由該規范進行定義。
數據類型規范:數據字段都可以歸納定義為一種類型,包括數值類型、字符串類型、日期類型、枚舉類型等等,不同的類型有其不同的格式、內容要求,例如十進制的數字類型不應出現 0~9 之外的字符,日期類型都有一定的格式,枚舉類型必須包括有限的內容等等,該規范對各種數據類型應滿足的條件進行定義。
數據統計規范:整體數值分布的規范。例如是數值類型,則數據數值的分布區間如何,最大值最小值是多少;如果是枚舉類型(例如性別),各值占比多少等等,該規范對數據整體統計上的維度進行定義。
社區開發者都可以向治理委員會提交規范,并通過開發者社區投票表決,如果規范通過,相應開發者將獲得 BBN 激勵。
2 治理工具
數據抽樣工具:當數據達到一定的量后,無法全部逐條進行評估,數據抽樣工具會根據實際場景需求,按照隨機抽取、特征值抽取、區間抽取等等條件提取評估樣本。
數據評估工具套件:針對數據規范,發布相應的評估工具,包括單機版、大數據平臺版等等。同時根據規范制定的開發協議,社區開發者可以開發提交自己的評估工具(包括多語言、多平臺版本)。
3 治理平臺
榕樹網絡通過社區達成共識的數據治理規范,來發布和運營數據治理眾包平臺。數據方可以將待處理的數據包發布到平臺上,通過眾包的形式發布任務,由社區參與治理。
場景一:數據清洗。數據初步格式化后,有些字段在商業場景應用時,無法直接使用,需要進一步清理。當計算機無法通過模型算法來完成時,就需要人工的介入。這種情況下可以發布到眾包平臺上,社區參與者可以根據要求進行清洗。
場景二:數據標注。數據建模機器學習過程需要各種各樣的樣本數據,樣本可以發布到眾包平臺上,平臺會根據內置的算法自動預處理樣本,減少人工的工作量,同時根據人工標注的結果再進一步優化預處理算法。
數據源方支付 BBN 給眾包治理參與者。平臺會將數據治理的結果保存到區塊鏈上,保證各方利益。
目前平臺一期在測試使用階段,其中一個場景就是電商客戶的客服系統文字分詞標注。
如下圖所示:圖 3.2 為初始文本輸入到標注平臺中,圖 3.3 是平臺利用自然語義分詞算法進行分詞,但是該分詞只是純粹的算法預處理,可能不適應業務場景,所以需要圖 3.4 的人工標注,例如 “打電話時無法聽到對方聲音”拼成一句話,得到一個商品問題的維度。
4 區塊鏈使用
數據治理平臺的各種數據,例如數據評估結果、數據標注結果等都會保存到區塊鏈上。由于目前公鏈的性能限制,不會把結果數據直接保存到公鏈上,而是將數據保存到 IPFS 上,通過 Merkle Tree結構將節點 hash 保存到公鏈上。
數據融合平臺
榕樹聯盟鏈是基于榕樹網絡底層區塊鏈架構技術,面向數據融合場景,匹配多方協作需求,涵蓋架構、工具、治理、運維等的一體化解決方案。其構建目標在于:
(1)更快地驅動可信數據網絡構建
榕樹聯盟鏈通過部署在跨主體的區塊鏈節點和橋接,支持分層存儲、防篡改、保護隱私、智能合約等,有機會以技術手段更快解決跨主體信任問題。
(2)更大程度地鼓勵數據共享
榕樹聯盟鏈各節點地位平等、共同維護,立足維護數據參與規則與激勵機制,使各節點實體更主動參與貢獻和維護數據,為數據溯源和渠道驗證提供可能。
(3)更深層次地推動模式創新
榕樹聯盟鏈各上鏈數據本身具備多個數據主體相互校驗的特質,基于智能合約等自動模式的商業交易可以大幅減少數據核實的環節和降低成本,降低交易風險且更具確定性,從而深層次推動高價值數據供應鏈的協同和互通。
榕樹聯盟鏈相對公鏈更靈活高效,主要面向具有重疊性、互補型 ID 體系的高價值 B 端數據伙伴實體,更易于標準化、模塊化、小范圍、輕量級的場景落地。
榕樹聯盟鏈基于標準數據服務、面向融合數據產品,將讓數據行業長期以來的傳統中心化和人為介入方式變革更具操作性,同時也進一步驗證榕樹底層公鏈與聯盟鏈結合架構的方案優勢。
1.榕樹聯盟鏈特征
榕樹聯盟鏈不同于榕樹網絡公鏈,具有部分去中心化、可控性強、交互速度快等特征。
(1)架構上,支持橫向伸縮、動態擴容、冷熱數據分離、多層摘要存儲等;
(2)功能上,支持用戶實名認證、數據治理、事件驅動協作模型等;
(3)安全上,支持可插拔密碼算法,默認多套并擴展 xID 設備等;
(4)合約上,支持可復用智能合約、多語言合約調試等;
(5)合規上,支持賬戶認證、節點監管、數據備案等。
榕樹聯盟鏈為成員共有,各節點分布在各成員中,易達成共識,有利于區塊鏈的高效運行和更新迭代;核心數據限于成員及其用戶按權限設置可見,可以滿足特定場景的隱私性需求。
2 榕樹聯盟鏈構成
榕樹聯盟鏈由加入榕樹網絡的各參與者節點構成,每個參與方都運行著一個或多個節點,共識過程受各個參與節點控制協同完成。
榕樹聯盟鏈基于 Hyperledger-Fabric 開發,軟件上包括區塊鏈協議、組件模型、服務界面等,硬件上包括區塊鏈節點、客戶端、分布式存儲器、基礎網絡等。
(1)區塊鏈節點(Peer):基于安全性、公平性,每個參與成員都需要提供機器節點加入到榕樹聯盟鏈網絡。加入榕樹聯盟鏈的成員至少提供一個 Peer,認證后的 Peer 可與其他成員 Peer 互聯,從而同步區塊鏈賬本信息。
(2)客戶端(Client):與 Peer 進行交互,進而與區塊鏈交互。Client 與 Peer 最好分別部署在不同機器上,一臺機器也可一并部署和 Peer 和 Client。
(3)星際文件系統(IPFS):作為引入的存儲提升方案,存儲數據摘要信息,只將數據摘要信息的 IPFS 地址入鏈。IPFS 節點伴隨 Client 存在,每個 Client 搭配至少一個 IPFS 節點,一個 IPFS節點與 Client 也可部署在相同機器上。
榕樹聯盟鏈 Peer 和 Client 對機器的配置公開,滿足符合標準的通用操作系統、硬件配置、Docker、域名、端口開放要求。網絡部署包括生成私鑰并申請證書、部署 Peer 節點、部署 IPFS,便于榕樹網絡架構的節點加入等順延要求。
3 數據融合機制
作為數據融合層面的“部分去中心化”價值工具,榕樹聯盟鏈只對聯盟成員開放而且有嚴格的認證機制。榕樹網絡聯盟鏈開放 IDMapping核心技術,作為成員間數據交互紐帶,實現數據融合。
ID-Mapping 基本過程可簡述為 A、B 兩方需要進行數據匹配,則依托共有 ID 體系進行 ID-Mapping 互操作。雙方首先將擬匹配的數據上傳到各自客戶端,發起方通過數據脫敏算法計算形成數據摘要存儲于發起方 IPFS,依托 IPFS 的去中心化共享,接收方也同步獲取數據脫敏算法信息,雙方依次進行數據脫敏算法計算后進行匹配,直至匹配數據一致則獲得共有 ID 結果,從而實現雙方數據融合。
4 通證流轉與價值共建
統一的通證體系是確保榕樹聯盟鏈高效運行的重要載體,榕樹網絡通證 BBN 將在聯盟鏈多方協作環節中發揮重要作用。這些使用場景包括但不限于:
(1)聯盟鏈成員注冊、加入的初始信用抵押物;
(2)主動數據投放、發起及響應數據匹配等良好行為激勵;
(3)聯盟鏈融合數據價值結算后的獎勵分配;
(4)聯盟鏈節點記賬的資源消耗補貼;
(5)聯盟鏈重大決策事項的投票憑證。
榕樹聯盟鏈構建初期,榕樹網絡將無償注入一定數量的 BBN 通證,作為聯盟鏈冷啟動運行的基礎推進燃料,封裝成一個個冷啟動通證包并定向或隨機發放,主要用于獎勵新加入聯盟鏈的成員、協調方及有助于聯盟鏈運行的良好行為。
5 價值融合的發展路線
榕樹網絡采用公鏈和聯盟鏈雙輪架構,推動價值大數據的高效、可信流動。榕樹聯盟鏈層次上定位為標準化、規范化數據的價值協作平臺,功能上側重于解決數據融合痛點,非常契合當下業內大量B 端參與者的協作轉型愿景。
榕樹聯盟鏈的核心價值在于為數據行業 B 端實體對等共建數據融合體系提供技術支撐和方案支持。在去中心化公鏈、弱中心化聯盟鏈架構下,榕樹聯盟鏈需要聯合更多組織、協同更多盟友等 B 端實體突破難點。其構建分為三個階段:
(1)推廣期,將面向行業現有聯盟組織及伙伴提供試點服務;
(2)發展期,將依托聯盟鏈進行合格參與者橫向擴展和技術演進;
(3)成熟期,將依托聯盟鏈,遵循模式開放、實體擴充原則,成長為全球最大的融合數據聯盟網絡。
數據安全伙伴聯盟(DSPA)是業內致力于多方安全的專業化伙伴間組織。依托與 DSPA 多家成員的緊密技術合作關系,榕樹網絡將首批依托 DSPA 建立應用試點,榕樹聯盟鏈的首個通用框架及首批應用工具也將重點響應 DSPA 的安全合規需求,進行通用功能和專屬功能并行開發,為其逐步擴展提供驗證。
數據服務應用市場
1 產品服務類型
1.1 查詢類
榕樹網絡標準查詢系統,涵蓋運營商、電商、銀行、社保、公積金、法院、學歷學籍、央行征信等各大領域數據,數據全面、穩定輸出,分布式平臺架構。
1.2 驗證類
榕樹網絡標準驗證系統,覆蓋多維度驗證,可以實現身份證實名驗證、運營商維度手機號實名驗證、銀行卡維度四要素交叉驗證、地址位置驗證、企業工商驗證等,數據更新及時,驗證精準。
1.3 標簽類
多維度標簽的融合可以幫助建立完善的人群畫像、商戶畫像、以及商圈畫像等,有效幫助客戶去洞察其所需要的場景畫像。例如:現在常見的機構三方核查手段有限,且自身數據積累較慢,對于上市互聯網金融公司來說識別較難,借助榕樹服務應用市場的全方位畫像標簽,可在第一時間識別欺詐分子。
1.4 評分類
榕樹網絡基礎評分系統,具有標準、指標體系、算法、發布機制等,針對數據產品和服務提供公開評分服務。例如,在市場趨勢下,榕樹網絡打造細分行業的權益分產品線,可運用在具體行業的商業拓展權益類活動、有客群分層篩選需求的消費金融場景等、并涵蓋金融服務的定向營銷功能。
1.5 行為圈定
基于輕部署,小投入,大回報的原則,對特定的場景進行圈選,線下實時全流程捕捉,再加上個體識別,如果知道目標潛客在哪、喜歡什么,甚至精準到品類和品牌偏好,將所有這些數據應用到營銷中,會得到高效費比的營銷結果。
1.6 地址圍欄
線下實時采集數據,例如:SDK 數據,運營商基站數據、線下消費交易數據、互聯網數據等,基于榕樹網絡賦能,全域 IDMapping,對各類地理位置數據和人群標簽進行融合打通,不僅有興趣偏好,也包括收入結構、年齡層次、品牌標簽等。識別每個移動端背后用戶的全網行為,實時還原數據背后的真實用戶畫像。
1.7 行為監測
線下實時全流程捕捉,覆蓋全網真實活躍用戶,基于位置+人群標簽圈選用戶,實時更新人群畫像,秒級還原真實線下場景。
1.8 感知觸達
基于實時數據的基礎之上,通過一定的監控數據規則做場景觸發。秒級一鍵觸達,數據一體化閉環。再營銷再沉淀,精細運營。
2 區塊鏈創新技術應用
2.1 創新型授權模式
依據 GDPR 的安全合規性要求,榕樹網絡推出互信通產品,確保每一筆數據的調用都是有經過用戶授權的,按照數據源接口的隱私層級,提供不同安全層級的授權策略和服務,授權文件哈希加密實時寫入鏈上,供客戶查驗。可以有效防止轉接行為的產生,防止簽約備案外客戶調用。
2.2 公開透明型計費模式
榕樹網絡計費體系,確保每一筆數據調用產生的計費都是公開
可追溯且不可篡改的,客戶可以明確看到每一筆數據的調用后臺連接的數據源以及數據源收取費用的策略,計費可追溯,防止在通過數據代理商調用數據之后,雙方產生計費沖突。
2.3 DAPP 閉環價值數據上鏈
將大數據技術和區塊鏈技術進行深度融合,支持數據應用生命周期管理。整個數據生命周期中的所有數據行為都通過調用 API 與榕樹網絡進行交互,通過智能合約將有價值的日志等數據寫入區塊鏈中記錄保存。
2.4 請求參數的上鏈監控
數據請求交互的過程中,非必填請求參數中不做驗證輸出時,參數錯誤極高。在請求的同時將參數以及使用方實時上鏈,約束請求方的參數質量以及后期的客戶質量評價。
通證經濟及治理結構
1 BBN 定義
美國證券交易委員會和瑞士 FINMA 將通證分成三大類:證券型通證(Security Token)、實用型通證(Utility Token)、資產型通證(Equity Token)。其中證券型通證的銷售和投資受到證券交易委員會證券條例的約束。美國證券交易委員會制定了相關準則來判定此類金融操作是否合規,并受證券法規的約束。
BBN 在通證分類中屬于實用型通證(Utility Token),其核心功能是作為生態系統中各參與方之間進行價值流通的介質,同時還代表著參與榕樹生態治理的權利。
榕樹生態建成之后,BBN 被用于生態內數據產品和服務的支付,作為實用型通證,BBN 內在價值的最大組成部分是其流通價值,但在整個榕樹網絡中,BBN 還代表著參與榕樹生態治理的權利等,為 BBN的價格帶來更多元的支撐。
2 BBN 的價值
1)生態內數據產品和服務的支付(如第五章所列各類服務和應用,需求方均需支付 BBN 來向提供方進行購買);
2)數據治理委員會投票權;
3)聯盟鏈創建、加入費用,以及用作內部激勵;
4)眾包平臺的發起抵押和支付;
5)第三方 Dapp 內的激勵或流通。
3 BBN 的經濟循環模型
BBN 的釋放是指 BBN 由榕樹網絡基金會賬戶發放到投資人以及參與者的賬戶中,其形式包括早期的私募、空投,以及生態建立后的數據上鏈獎勵、工具接入獎勵等;
BBN 的流通是指數據擁有方、數據服務方、數據應用方、大數據計算資源提供方等各個榕樹網絡的參與者,用 BBN 來作為服務、產品、資源等價值流通的媒介,在相互的賬戶中流轉;BBN 的回收是指榕樹網絡治理委員會通過制定相應治理及調控規則,以回購、押金懲罰、榕樹系統及底層工具使用費的形式回收BBN,由參與者賬戶到榕樹基金會賬戶。
4 榕樹網絡治理體系
榕樹網絡基金會:擁有提名治理委員會候選人的權利,需要接受治理委員會的監督,以及按照治理委員會提出且通過 BBN 持有者投票的提案來運行規則。
治理委員會:候選人由榕樹網絡基金會提名或參與者自主報名,由BBN持有者投票從中產生治理委員會成員,負責向社區發布對規則提案的投票。治理委員會由大數據行業專家、榕樹網絡社區代表、榕樹網絡基金會代表按照一定比例構成。
BBN 持有者:BBN 持有者在投票期內鎖定一定數量的 BBN,對治理委員會候選人進行投票,并有權利對治理委員會的規則提案進行投票,按照鎖定數額計算權重。
總結
隨著榕樹生態的逐步建立和展開,榕樹網絡誠邀更多大數據產業相關方以及區塊鏈從業者加入到榕樹網絡的共建和共治中,一同打造未來分布式數據經濟體系。
評論
查看更多