|
|
當(dāng)今社會(huì)是一個(gè)信息化社會(huì)的時(shí)代,同時(shí)又是一個(gè)大數(shù)據(jù)時(shí)代,。隨著互聯(lián)網(wǎng),、物聯(lián)網(wǎng)、云計(jì)算和人工智能等信息技術(shù)和計(jì)算機(jī)產(chǎn)業(yè)的不斷發(fā)展和進(jìn)步,,使得數(shù)據(jù)的處理成為一個(gè)亟待解決的問(wèn)題,。因此在大數(shù)據(jù)的背景下,如何高效地從大量包含有用數(shù)據(jù)的庫(kù)獲得有用信息已成為企業(yè)和科研工作重點(diǎn)關(guān)注的點(diǎn),而這一工作涉及的關(guān)鍵技術(shù)就是數(shù)據(jù)挖掘技術(shù)??偟谜f(shuō),,數(shù)據(jù)處理的需要既給數(shù)據(jù)挖掘技術(shù)帶來(lái)了機(jī)遇,于此同時(shí)帶來(lái)了一系列的挑戰(zhàn),。
其中,,知識(shí)圖譜(Knowledge Graph)作為一種新的知識(shí)表示方法和數(shù)據(jù)管理模式,在自然語(yǔ)言處理,、問(wèn)題回答,、信息檢索等領(lǐng)域有著重要的應(yīng)用。知識(shí)圖譜是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),,用于以符號(hào)形式描述物理世界中的概念及其相互關(guān)系;其基本組成單位是“實(shí)體-關(guān)系-實(shí)體”三元組,,以及實(shí)體及其相關(guān)屬性-值對(duì),實(shí)體間通過(guò)關(guān)系相互聯(lián)結(jié),,構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu),。
知識(shí)圖譜構(gòu)建是知識(shí)圖譜得以應(yīng)用發(fā)展的前提,涉及實(shí)體抽取和實(shí)體及實(shí)體之間關(guān)系的建立,,同時(shí)還需要很好地組織和存儲(chǔ)抽取的實(shí)體與關(guān)系信息,,使其能夠被迅速的訪問(wèn)和操作。知識(shí)圖譜構(gòu)建過(guò)程通??梢苑殖蓛刹剑褐R(shí)圖譜本體層構(gòu)建和實(shí)體層的學(xué)習(xí),。本體層構(gòu)建通常包含術(shù)語(yǔ)抽取、同義詞抽取,、概念抽取,、分類關(guān)系抽取、公理和規(guī)則學(xué)習(xí);實(shí)體層學(xué)習(xí)則包含實(shí)體學(xué)習(xí),、實(shí)體數(shù)據(jù)填充,、實(shí)體對(duì)齊和實(shí)體鏈接等。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的KGB知識(shí)圖譜引擎,,KGB知識(shí)圖譜引擎(Knowledge Graph Builder)是基于自然語(yǔ)言理解,、漢語(yǔ)詞法分析,采用KGB語(yǔ)法從結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化文檔中抽取各類知識(shí),,大數(shù)據(jù)語(yǔ)義智能分析與知識(shí)推理,,深度挖掘知識(shí)關(guān)聯(lián),實(shí)時(shí)高效構(gòu)建知識(shí)圖譜,。
KGB知識(shí)圖譜引擎功能介紹
一,、文檔提取
1、輕松解析多種格式文檔:KGB知識(shí)圖譜引擎,,可輕松解析多種格式,、多種版本文檔:TXT,、DOC、EXCEL,、PPT,、PDF、XML等,。對(duì)于圖片信息,,OCR可自動(dòng)識(shí)別并抽取圖片中的文字信息。
2,、結(jié)構(gòu)化表格數(shù)據(jù)知識(shí)抽?。篕GB能夠自適應(yīng)解讀并抽取結(jié)構(gòu)化表格數(shù)據(jù),實(shí)現(xiàn)知識(shí)的快速生成,。
3,、非結(jié)構(gòu)化文檔知識(shí)抽取:KGB知識(shí)規(guī)則引擎,,快速定位非結(jié)構(gòu)化文檔中的關(guān)鍵信息(主體,、時(shí)間、金額等),,高效抽取知識(shí),。
二、知識(shí)關(guān)聯(lián)
KGB知識(shí)圖譜引擎深入挖掘知識(shí)關(guān)聯(lián),,將知識(shí)實(shí)體鏈接為有意義的知識(shí)事實(shí),。并具有強(qiáng)大的知識(shí)推理能力,推理暗含的知識(shí)與結(jié)論,,豐富知識(shí)圖譜。
三,、知識(shí)推理
KGB具有強(qiáng)大的知識(shí)推理能力,,推理出暗含的知識(shí),獲取更多知識(shí)與結(jié)論,,豐富知識(shí)圖譜,。
1、演繹歸納推理(一般—特殊):KGB能夠完成由一般特征到特殊個(gè)案的演繹知識(shí)推理和由特殊個(gè)案到一般特征的歸納知識(shí)推理,,擴(kuò)充大量暗含的知識(shí),,豐富知識(shí)圖譜。
2,、知識(shí)計(jì)算(數(shù)值知識(shí)的加減乘除計(jì)算):對(duì)于數(shù)值型知識(shí),,KGB能夠識(shí)別并對(duì)數(shù)值型知識(shí)進(jìn)行加減乘除的知識(shí)計(jì)算推理,并可對(duì)知識(shí)計(jì)算的準(zhǔn)確性進(jìn)行核查,。
3,、知識(shí)庫(kù)檢查:KGB能夠?qū)崟r(shí)檢查知識(shí)庫(kù),,糾正知識(shí)錯(cuò)誤與沖突,**知識(shí)圖譜正確性與性,。
隨著信息技術(shù)在我國(guó)社會(huì)生活各個(gè)領(lǐng)域應(yīng)用的深入,中文信息處理正在成為人們工作和生活中不可或缺的手段,,中文信息處理將具有更加廣闊的市場(chǎng)。這將促使中文信息處理方面的高效中文搜索引擎,、實(shí)時(shí)機(jī)器翻譯,、大規(guī)模中文文本處理、跨平臺(tái)中西文自動(dòng)識(shí)別轉(zhuǎn)換,、泛中文語(yǔ)義理解,、中文電子商務(wù)等技術(shù)實(shí)現(xiàn)重大突破。中文信息處理已成為我國(guó)信息技術(shù)研究,、發(fā)展,、應(yīng)用和產(chǎn)業(yè)的基礎(chǔ),在互聯(lián)網(wǎng)日益成長(zhǎng)的今天,,中文信息處理技術(shù)將會(huì)更加成熟并創(chuàng)新,。
|