|
|
構(gòu)建知識(shí)圖譜需要滿足三項(xiàng)要素要求,分別是實(shí)體,,關(guān)系和屬性,。文本信息提取,則是在文本中提出三元信息,,包括實(shí)體和關(guān)系的信息,,實(shí)體和屬性的信息,然后將這些關(guān)系設(shè)置成數(shù)據(jù)庫的過程,。
進(jìn)行信息提取的主要環(huán)節(jié)介紹:
1,、確定要進(jìn)行信息提取的知識(shí)本體。
2,、為每一個(gè)目標(biāo)知識(shí)點(diǎn)設(shè)立足夠的訓(xùn)練語料,,或是抽取足夠的編寫規(guī)則
3,、利用機(jī)器學(xué)習(xí)的方法,在訓(xùn)練語料和規(guī)則的基礎(chǔ)上,,建立模型。
構(gòu)建知識(shí)圖譜**重要的環(huán)節(jié),,NLPIR平臺(tái)KGB知識(shí)圖譜在文本信息提取的優(yōu)勢(shì):
1,、能夠解析不同格式文檔和圖片
KGB知識(shí)圖譜引擎,能夠?qū)Σ煌姹竞透袷降奈臋n進(jìn)行解析:TXT,、DOC,、EXCEL、PPT,、PDF,、XML等,對(duì)于圖片,,OCR可自動(dòng)識(shí)別并抽取圖片中的文字信息,。
2、對(duì)結(jié)構(gòu)化表格數(shù)據(jù)知識(shí)抽取
KGB能夠自適應(yīng)解讀并抽取結(jié)構(gòu)化表格數(shù)據(jù),,實(shí)現(xiàn)知識(shí)的快速生成,。
3、對(duì)非結(jié)構(gòu)化文檔知識(shí)抽取
KGB知識(shí)規(guī)則引擎,,能夠快速定位非結(jié)構(gòu)化文檔中的關(guān)鍵信息(主體,、時(shí)間、金額等),,進(jìn)行高效抽取知識(shí),。
NLPIR大數(shù)據(jù)語義智能分析平臺(tái),是基于中文數(shù)據(jù)挖掘的綜合需求,,融合了網(wǎng)絡(luò)精準(zhǔn)采集,、自然語言理解、文本挖掘和語義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺(tái),。
|