|
|
隨著信息數(shù)量的驟然增加,,消費(fèi)者要想找出有用信息需要消耗大量精力.因此對這些散落在Html網(wǎng)頁中無結(jié)構(gòu)的信息進(jìn)行提取,、分析,,不僅能夠幫助消費(fèi)者從海量的文本中快速獲得有效的信息,節(jié)省人力成本,,也可以幫助企業(yè)改進(jìn)產(chǎn)品,、提高質(zhì)量,從而為產(chǎn)品推薦提供一種新的營銷模式.為有效的抽取互聯(lián)網(wǎng)上的信息,,網(wǎng)絡(luò)文本信息非結(jié)構(gòu)化數(shù)據(jù)抽取技術(shù),、網(wǎng)絡(luò)文本信息采集技術(shù)和細(xì)粒度數(shù)據(jù)挖掘技術(shù)應(yīng)用而生.信息抽取技術(shù)是通過對網(wǎng)頁進(jìn)行處理,從半結(jié)構(gòu)化或者非結(jié)構(gòu)化的Web頁面中抽取出用戶感興趣的信息和內(nèi)容,,并將其轉(zhuǎn)化成清晰的結(jié)構(gòu)形式.
為了適應(yīng)信息應(yīng)用的需求,,越來越多的使用信息抽取技術(shù),目標(biāo)是從海量,、冗余,、異構(gòu)、不規(guī)范,、含有大量噪聲的網(wǎng)頁中大規(guī)模地抽取開放類別的實(shí)體,、關(guān)系、事件等多層次語義單元信息,,并形成結(jié)構(gòu)化數(shù)據(jù)格式輸出,。其特點(diǎn)在于:① 文本領(lǐng)域開放:處理的文本領(lǐng)域不再限定于規(guī)范的新聞文本或者某一領(lǐng)域文本,而是不限定領(lǐng)域的網(wǎng)絡(luò)文本;② 語義單元類型開放:所抽取的語義單元不限定類型,,而是自動(dòng)地從網(wǎng)絡(luò)中挖掘語義單元的類型,,例如實(shí)體類型、關(guān)系類型和事件類型等;③ 以“抽取”替代“識別”:相對于傳統(tǒng)信息抽取,,開放式文本信息抽取不再拘泥于從文本中識別目標(biāo)信息的每次出現(xiàn),,而是充分利用網(wǎng)絡(luò)數(shù)據(jù)海量、冗余的特性,,以抽取的方式構(gòu)建面向?qū)嶋H應(yīng)用的多層次語義單元集合,。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR語義智能平臺KGB知識圖譜引擎是基于漢語詞法分析,采用KGB語法從結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化文檔中抽取各類知識,,大數(shù)據(jù)語義智能分析與知識推理,,深度挖掘知識關(guān)聯(lián),實(shí)時(shí)高效構(gòu)建知識圖譜,。KGB知識圖譜引擎核心技術(shù)與特色:
1,、 KGB知識抽取
KGB(Knowledge Graph Builder)知識圖譜引擎是我們自主研發(fā)的知識圖譜構(gòu)建與推理引擎,基于漢語詞法分析的基礎(chǔ)上,,采用KGB語法實(shí)現(xiàn)了實(shí)時(shí)高效的知識生成,可以從非結(jié)構(gòu)化文本中抽取各類知識,并實(shí)現(xiàn)了從表格中抽取的內(nèi)容等,。
KGB知識圖譜引擎可以定義不同的動(dòng)作,,增加、刪除,、修改,、抽取等等。每一類動(dòng)作還能自定義各類后處理程序,。
2 ,、語義智能分析
NLPIR大數(shù)據(jù)語義智能分析針對大數(shù)據(jù)內(nèi)容采編挖搜的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集,、自然語言理解,、文本挖掘和語義搜索的**研究成果,先后歷時(shí)十八年,,服務(wù)了全球四十萬家機(jī)構(gòu)用戶,,是大數(shù)據(jù)時(shí)代語義智能分析的一大利器。
NLPIR大數(shù)據(jù)語義智能分析十三大功能:精準(zhǔn)采集,、文檔抽取,、新詞發(fā)現(xiàn)、批量分詞,、語言統(tǒng)計(jì),、文本聚類、文本分類,、摘要實(shí)體,、智能過濾、情感分析,、文檔去重,、全文檢索與編碼轉(zhuǎn)換。
3 ,、語義精準(zhǔn)搜索
JZSearch大數(shù)據(jù)語義精準(zhǔn)搜索引擎:是靈玖軟件聯(lián)合中科院與北理工的信息檢索專家,,針對大數(shù)據(jù)垂直搜索需求的全文智能檢索引擎,融合了自然語言理解,、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),,通過人機(jī)互動(dòng)、深度機(jī)器學(xué)習(xí)后具有一定的語義推理能力,,是結(jié)合了人工智能技術(shù)的新一代搜索引擎,,具有專業(yè)精準(zhǔn)、高擴(kuò)展性和高通用性的特點(diǎn),。
隨著信息技術(shù)在我國社會(huì)生活各個(gè)領(lǐng)域應(yīng)用的深入,中文信息處理正在成為人們工作和生活中不可或缺的手段,,中文信息處理將具有更加廣闊的市場。這將促使中文信息處理方面的高效中文搜索引擎、實(shí)時(shí)機(jī)器翻譯,、大規(guī)模中文文本處理,、跨平臺中西文自動(dòng)識別轉(zhuǎn)換、泛中文語義理解,、中文電子商務(wù)等技術(shù)實(shí)現(xiàn)重大突破,。中文信息處理已成為我國信息技術(shù)研究、發(fā)展,、應(yīng)用和產(chǎn)業(yè)的基礎(chǔ),,在互聯(lián)網(wǎng)日益成長的今天,中文信息處理技術(shù)將會(huì)更加成熟并創(chuàng)新,。
|