那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

知識圖譜——技術與行業(yè)應用

恬靜簡樸1 ? 來源:恬靜簡樸1 ? 作者:恬靜簡樸1 ? 2022-10-14 10:40 ? 次閱讀

從一開始的Google搜索,到現(xiàn)在的聊天機器人、大數(shù)據(jù)風控、證券投資、智能醫(yī)療、自適應教育、推薦系統(tǒng),無一不跟知識圖譜相關。

隨著移動互聯(lián)網(wǎng)的發(fā)展,萬物互聯(lián)成為了可能,這種互聯(lián)所產(chǎn)生的數(shù)據(jù)也在爆發(fā)式地增長,而且這些數(shù)據(jù)恰好可以作為分析關系的有效原料。如果說以往的智能分析專注在每一個個體上,在移動互聯(lián)網(wǎng)時代則除了個體,這種個體之間的關系也必然成為我們需要深入分析的很重要一部分。 在一項任務中,只要有關系分析的需求,知識圖譜就“有可能”派的上用場。

知識圖譜的表示

知識圖譜應用的前提是已經(jīng)構建好了知識圖譜,也可以把它認為是一個知識庫。這也是為什么它可以用來回答一些搜索相關問題的原因,比如在Google搜索引擎里輸入“Who is the wife of Bill Gates?”,我們直接可以得到答案-“Melinda Gates”。這是因為我們在系統(tǒng)層面上已經(jīng)創(chuàng)建好了一個包含“Bill Gates”和“Melinda Gates”的實體以及他倆之間關系的知識庫。所以,當我們執(zhí)行搜索的時候,就可以通過關鍵詞提取("Bill Gates", "Melinda Gates", "wife")以及知識庫上的匹配可以直接獲得最終的答案。這種搜索方式跟傳統(tǒng)的搜索引擎是不一樣的,一個傳統(tǒng)的搜索引擎它返回的是網(wǎng)頁、而不是最終的答案,所以就多了一層用戶自己篩選并過濾信息的過程。

poYBAGNIzBKAaTkxAAIlyThzrBw436.png

在現(xiàn)實世界中,實體和關系也會擁有各自的屬性,比如人可以有“姓名”和“年齡”。當一個知識圖譜擁有屬性時,我們可以用屬性圖(Property Graph)來表示。下面的圖表示一個簡單的屬性圖。李明和李飛是父子關系,并且李明擁有一個138開頭的電話號,這個電話號開通時間是2018年,其中2018年就可以作為關系的屬性。類似的,李明本人也帶有一些屬性值比如年齡為25歲、職位是總經(jīng)理等。

pYYBAGNIzBSAQNLKAAIACxc8tZc445.png

這種屬性圖的表達很貼近現(xiàn)實生活中的場景,也可以很好地描述業(yè)務中所包含的邏輯。除了屬性圖,知識圖譜也可以用RDF來表示,它是由很多的三元組(Triples)來組成。RDF在設計上的主要特點是易于發(fā)布和分享數(shù)據(jù),但不支持實體或關系擁有屬性,如果非要加上屬性,則在設計上需要做一些修改。目前來看,RDF主要還是用于學術的場景,在工業(yè)界我們更多的還是采用圖數(shù)據(jù)庫(比如用來存儲屬性圖)的方式。感興趣的讀者可以參考RDF的相關文獻,在文本里不多做解釋。

知識抽取

知識圖譜的構建是后續(xù)應用的基礎,而且構建的前提是需要把數(shù)據(jù)從不同的數(shù)據(jù)源中抽取出來。對于垂直領域的知識圖譜來說,它們的數(shù)據(jù)源主要來自兩種渠道:一種是業(yè)務本身的數(shù)據(jù),這部分數(shù)據(jù)通常包含在公司內的數(shù)據(jù)庫表并以結構化的方式存儲;另一種是網(wǎng)絡上公開、抓取的數(shù)據(jù),這些數(shù)據(jù)通常是以網(wǎng)頁的形式存在所以是非結構化的數(shù)據(jù)。

前者一般只需要簡單預處理即可以作為后續(xù)AI系統(tǒng)的輸入,但后者一般需要借助于自然語言處理等技術來提取出結構化信息。比如在上面的搜索例子里,Bill Gates和Malinda Gate的關系就可以從非結構化數(shù)據(jù)中提煉出來,比如維基百科等數(shù)據(jù)源。

pYYBAGNIzBWAD60gAAG3JGg5ERU878.png

信息抽取的難點在于處理非結構化數(shù)據(jù)。在下面的圖中,我們給出了一個實例。左邊是一段非結構化的英文文本,右邊是從這些文本中抽取出來的實體和關系。在構建類似的圖譜過程當中,主要涉及以下幾個方面的自然語言處理技術:

a. 實體命名識別(Name Entity Recognition)

b. 關系抽取(Relation Extraction)

c. 實體統(tǒng)一(Entity Resolution)

d. 指代消解(Coreference Resolution)

知識圖譜的存儲

知識圖譜主要有兩種存儲方式:一種是基于RDF的存儲;另一種是基于圖數(shù)據(jù)庫的存儲。它們之間的區(qū)別如下圖所示。RDF一個重要的設計原則是數(shù)據(jù)的易發(fā)布以及共享,圖數(shù)據(jù)庫則把重點放在了高效的圖查詢和搜索上。其次,RDF以三元組的方式來存儲數(shù)據(jù)而且不包含屬性信息,但圖數(shù)據(jù)庫一般以屬性圖為基本的表示形式,所以實體和關系可以包含屬性,這就意味著更容易表達現(xiàn)實的業(yè)務場景。

poYBAGNIzBaAKwfhAAGWlMzuoKY396.png

根據(jù)最新的統(tǒng)計(2018年上半年),圖數(shù)據(jù)庫仍然是增長最快的存儲系統(tǒng)。相反,關系型數(shù)據(jù)庫的增長基本保持在一個穩(wěn)定的水平。同時,我們也列出了常用的圖數(shù)據(jù)庫系統(tǒng)以及他們最新使用情況的排名。 其中Neo4j系統(tǒng)目前仍是使用率最高的圖數(shù)據(jù)庫,它擁有活躍的社區(qū),而且系統(tǒng)本身的查詢效率高,但唯一的不足就是不支持準分布式。相反,OrientDB和JanusGraph(原Titan)支持分布式,但這些系統(tǒng)相對較新,社區(qū)不如Neo4j活躍,這也就意味著使用過程當中不可避免地會遇到一些刺手的問題。如果選擇使用RDF的存儲系統(tǒng),Jena或許一個比較不錯的選擇。

pYYBAGNIzBeAHp_sAAH9wf4RM1k801.png

知識圖譜在其他行業(yè)中的應用

除了金融領域,知識圖譜的應用可以涉及到很多其他的行業(yè),包括醫(yī)療、教育、證券投資、推薦等等。其實,只要有關系存在,則有知識圖譜可發(fā)揮價值的地方。 在這里簡單舉幾個垂直行業(yè)中的應用。

比如對于教育行業(yè),我們經(jīng)常談論個性化教育、因材施教的理念。其核心在于理解學生當前的知識體系,而且這種知識體系依賴于我們所獲取到的數(shù)據(jù)比如交互數(shù)據(jù)、評測數(shù)據(jù)、互動數(shù)據(jù)等等。為了分析學習路徑以及知識結構,我們則需要針對于一個領域的概念知識圖譜,簡單來講就是概念拓撲結構。在下面的圖中,我們給出了一個非常簡單的概念圖譜:比如為了學習邏輯回歸則需要先理解線性回歸;為了學習CNN,得對神經(jīng)網(wǎng)絡有所理解等等。所有對學生的評測、互動分析都離不開概念圖譜這個底層的數(shù)據(jù)。

poYBAGNIzBiAHYW3AAFlnZCiH4o564.png

在證券領域,我們經(jīng)常會關心比如“一個事件發(fā)生了,對哪些公司產(chǎn)生什么樣的影響?” 比如有一個負面消息是關于公司1的高管,而且我們知道公司1和公司2有種很密切的合作關系,公司2有個主營產(chǎn)品是由公司3提供的原料基礎上做出來的。

poYBAGNIzBmAcRIMAAJehHxE9cs206.png

其實有了這樣的一個知識圖譜,我們很容易回答哪些公司有可能會被這次的負面事件所影響。當然,僅僅是“有可能”,具體會不會有強相關性必須由數(shù)據(jù)來驗證。所以在這里,知識圖譜的好處就是把我們所需要關注的范圍很快給我們圈定。接下來的問題會更復雜一些,比如既然我們知道公司3有可能被這次事件所影響,那具體影響程度有多大? 對于這個問題,光靠知識圖譜是很難回答的,必須要有一個影響模型、以及需要一些歷史數(shù)據(jù)才能在知識圖譜中做進一步推理以及計算。

實踐上的幾點建議

首先,知識圖譜是一個比較新的工具,它的主要作用還是在于分析關系,尤其是深度的關系。所以在業(yè)務上,首先要確保它的必要性,其實很多問題可以用非知識圖譜的方式來解決。

知識圖譜領域一個最重要的話題是知識的推理。 而且知識的推理是走向強人工智能的必經(jīng)之路。但很遺憾的,目前很多語義網(wǎng)絡的角度討論的推理技術(比如基于深度學習,概率統(tǒng)計)很難在實際的垂直應用中落地。其實目前最有效的方式還是基于一些規(guī)則的方法論,除非我們有非常龐大的數(shù)據(jù)集。

最后,還是要強調一點,知識圖譜工程本身還是業(yè)務為重心,以數(shù)據(jù)為中心。不要低估業(yè)務和數(shù)據(jù)的重要性。

總之知識圖譜是一個既充滿挑戰(zhàn)而且非常有趣的領域。只要有正確的應用場景,對于知識圖譜所能發(fā)揮的價值還是可以期待的。我相信在未來不到2,3年時間里,知識圖譜技術會普及到各個領域當中。

審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關推薦

    微軟發(fā)布《GraphRAG實踐應用白皮書》助力開發(fā)者

    近日,微軟針對開發(fā)者群體,重磅推出了《GraphRAG實踐應用白皮書》。該白皮書全面而深入地涵蓋了知識圖譜的核心內容,為開發(fā)者和企業(yè)提供了寶貴的指導和啟示。 從知識圖譜的基礎概念出發(fā),白皮書詳細闡述
    的頭像 發(fā)表于 01-13 16:11 ?363次閱讀

    利智方:驅動企業(yè)知識管理與AI創(chuàng)新加速的平臺

    利智方致力于深度整合企業(yè)知識資產(chǎn),全面打通知識生命周期的各個環(huán)節(jié)。通過構建強大的知識庫和精準的知識圖譜,支持快速定制和部署各類AI應用,為企業(yè)創(chuàng)新發(fā)展提供堅實的
    的頭像 發(fā)表于 12-30 11:07 ?342次閱讀

    傳音旗下人工智能項目榮獲2024年“上海產(chǎn)學研合作優(yōu)秀項目獎”一等獎

    和華東師范大學聯(lián)合申報的“跨語言知識圖譜構建與推理技術研究及應用”項目憑借創(chuàng)新性和技術先進性榮獲一等獎。該項目成功突破了多形態(tài)信息抽取技術、跨語言
    的頭像 發(fā)表于 12-16 17:04 ?383次閱讀
    傳音旗下人工智能項目榮獲2024年“上海產(chǎn)學研合作優(yōu)秀項目獎”一等獎

    傳音旗下小語種AI技術榮獲2024年“上海產(chǎn)學研合作優(yōu)秀項目獎”一等獎

    和華東師范大學聯(lián)合申報的“跨語言知識圖譜構建與推理技術研究及應用”項目憑借創(chuàng)新性和技術先進性榮獲一等獎。 該項目成功突破了多形態(tài)信息抽取技術、跨語言
    的頭像 發(fā)表于 12-16 16:21 ?421次閱讀
    傳音旗下小語種AI<b class='flag-5'>技術</b>榮獲2024年“上海產(chǎn)學研合作優(yōu)秀項目獎”一等獎

    光譜看譜鏡分析圖譜

    火電廠材質分析看譜鏡圖譜
    發(fā)表于 12-06 15:02 ?0次下載

    58大新質生產(chǎn)力產(chǎn)業(yè)鏈圖譜

    ? 新質生產(chǎn)力是經(jīng)濟增長動能切換的必然路徑。新質生產(chǎn)力被定義為由技術性革命突破、生產(chǎn)要素創(chuàng)新性配置、產(chǎn) 業(yè)深度轉型升級催生的,具備高科技、高效能、高質量特征的,能夠實現(xiàn)勞動者、勞動資料、勞動對象三
    的頭像 發(fā)表于 11-09 10:16 ?437次閱讀
    58大新質生產(chǎn)力產(chǎn)業(yè)鏈<b class='flag-5'>圖譜</b>

    三星自主研發(fā)知識圖譜技術,強化Galaxy AI用戶體驗與數(shù)據(jù)安全

    據(jù)外媒11月7日報道,三星電子全球AI中心總監(jiān)Kim Dae-hyun近日透露,公司正致力于自主研發(fā)知識圖譜技術,旨在進一步優(yōu)化Galaxy AI的功能,提升其易用性,并加強用戶數(shù)據(jù)的隱私保護。
    的頭像 發(fā)表于 11-07 15:19 ?780次閱讀

    易智瑞榮獲“信息技術應用創(chuàng)新工作委員會技術活動單位”

    布的GeoScene V4.1在自主創(chuàng)新方面的新特性、新能力,重點展示GeoScene V4.1在三維、人工智能、影像、知識圖譜等方面的新成果。
    的頭像 發(fā)表于 10-11 10:41 ?490次閱讀
    易智瑞榮獲“信息<b class='flag-5'>技術</b>應用創(chuàng)新工作委員會<b class='flag-5'>技術</b>活動單位”

    革新未來智能版圖,神州數(shù)碼榮登IDC生成式AI圖譜

    6月19日,國際權威市場研究機構IDC正式發(fā)布了《2024年第二季度生成式AI生態(tài)圖譜》,其中,神州數(shù)碼憑借在生成式AI領域的領先布局,以其深度整合算力、模型、知識與應用的核心能力,成功占據(jù)生態(tài)圖譜
    的頭像 發(fā)表于 07-29 15:20 ?446次閱讀
    革新未來智能版圖,神州數(shù)碼榮登IDC生成式AI<b class='flag-5'>圖譜</b>

    三星電子成功收購英國初創(chuàng)公司,致力開發(fā)AI核心技術

    7月18日,三星電子正式對外宣布了一項重要戰(zhàn)略舉措——成功收購英國新興科技企業(yè)Oxford Semantic Technologies。這家初創(chuàng)公司成立于2017年,專注于前沿的知識圖譜技術領域,致力于開發(fā)能夠賦能更復雜AI應用的核心
    的頭像 發(fā)表于 07-18 15:40 ?598次閱讀

    三星電子將收購英國知識圖譜技術初創(chuàng)企業(yè)

    在人工智能技術日新月異的今天,三星電子公司再次展現(xiàn)了其前瞻性的戰(zhàn)略布局與技術創(chuàng)新實力。近日,三星正式宣布完成了對英國領先的人工智能(AI)與知識圖譜技術初創(chuàng)企業(yè)Oxford Seman
    的頭像 發(fā)表于 07-18 14:46 ?576次閱讀

    知識圖譜與大模型之間的關系

    在人工智能的廣闊領域中,知識圖譜與大模型是兩個至關重要的概念,它們各自擁有獨特的優(yōu)勢和應用場景,同時又相互補充,共同推動著人工智能技術的發(fā)展。本文將從定義、特點、應用及相互關系等方面深入探討知識圖譜與大模型之間的關系。
    的頭像 發(fā)表于 07-10 11:39 ?1213次閱讀

    維智科技入選《2024中國數(shù)據(jù)智能產(chǎn)業(yè)圖譜1.0》

    近日,數(shù)據(jù)猿與上海大數(shù)據(jù)聯(lián)盟聯(lián)合發(fā)布了《2024中國數(shù)據(jù)智能產(chǎn)業(yè)圖譜1.0》,旨在以大數(shù)據(jù)與AI為代表的智能技術為主要視角,聚焦全產(chǎn)業(yè)鏈為業(yè)內提供更為專業(yè)直觀的行業(yè)指導。維智科技憑借在政務數(shù)字化
    的頭像 發(fā)表于 06-14 19:27 ?1054次閱讀
    維智科技入選《2024中國數(shù)據(jù)智能產(chǎn)業(yè)<b class='flag-5'>圖譜</b>1.0》

    利用知識圖譜與Llama-Index技術構建大模型驅動的RAG系統(tǒng)(下)

    對于語言模型(LLM)幻覺,知識圖譜被證明優(yōu)于向量數(shù)據(jù)庫。知識圖譜提供更準確、多樣化、有趣、邏輯和一致的信息,減少了LLM中出現(xiàn)幻覺的可能性。
    的頭像 發(fā)表于 02-22 14:13 ?1314次閱讀
    利用<b class='flag-5'>知識圖譜</b>與Llama-Index<b class='flag-5'>技術</b>構建大模型驅動的RAG系統(tǒng)(下)

    利用知識圖譜與Llama-Index技術構建大模型驅動的RAG系統(tǒng)(上)

    向量數(shù)據(jù)庫是一組高維向量的集合,用于表示實體或概念,例如單詞、短語或文檔。向量數(shù)據(jù)庫可以根據(jù)實體或概念的向量表示來度量它們之間的相似性或關聯(lián)性。
    的頭像 發(fā)表于 02-22 14:07 ?1227次閱讀
    利用<b class='flag-5'>知識圖譜</b>與Llama-Index<b class='flag-5'>技術</b>構建大模型驅動的RAG系統(tǒng)(上)
    bet365金融技巧| 原阳县| 扎兰屯市| 在线百家乐官网纸牌| 百家乐怎打能赢| 赢家百家乐的玩法技巧和规则| 德州扑克比赛| 百家乐官网娱乐用品| 免费百家乐官网统计工具| 重庆百家乐的玩法技巧和规则| 大发888开户,| 百家乐官网www| 百家乐怎么押钱| 鑫鼎娱乐| 真人百家乐官网网络游戏信誉怎么样| 澳门赌百家乐的玩法技巧和规则| 六合彩下注网| 基础百家乐官网规则| 重庆百家乐的玩法技巧和规则| 西城区| 百家乐稳赚秘籍| 大发888怎么开户| 百家乐官网2号死机| 玩百家乐的高手| 大发888 现金棋牌游戏| 百家乐官网赌机厂家| 百家乐五湖四海娱乐场开户注册| 长治县| 百家乐信誉平台开户| 做生意房门挂啥招财| 时时博娱乐城评级| 柬埔寨百家乐官网的玩法技巧和规则| 缅甸赌场| 百家乐官网tie| 星期8百家乐娱乐城| 百家乐官网防伪筹码套装| 百家乐博娱乐网提款速度快不| 长海县| 百家乐平注法口诀| 莱阳市| 百家乐电投网址|