|
|
從所周知,,大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大的事實了,, 而**重要的現(xiàn)實是對大數(shù)據(jù)進(jìn)行分析,,只有通過分析才能獲取很多智能的,,深入的,有價值的信息,。 那么越來越多的應(yīng)用涉及到大數(shù)據(jù),,而這些大數(shù)據(jù)的屬性,,包括數(shù)量,,速度, 多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性,,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,, 可以說是決定**終信息是否有價值的決定性因素。
大數(shù)據(jù)分析的基礎(chǔ)就是以可視化分析,、數(shù)據(jù)挖掘算法,、預(yù)測性分析、語義引擎,、數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理五個方面,,當(dāng)然更加深入大數(shù)據(jù)分析的話, 還有很多很多更加有特點的,、更加深入的,、更加專業(yè)的大數(shù)據(jù)分析方法,。
在大數(shù)據(jù)時代背景下,隨著海量數(shù)據(jù)的出現(xiàn)以及多數(shù)據(jù)源融合交叉應(yīng)用,,傳統(tǒng)的數(shù)據(jù)管理模式以及查詢方式受到一定的制約,。近年來,知識圖譜(Knowledge Graph)作為一種新的知識表示方法和數(shù)據(jù)管理模式,,在自然語言處理,、問題回答、信息檢索等領(lǐng)域有著重要的應(yīng)用,。知識圖譜是結(jié)構(gòu)化的語義知識庫,,用于以符號形式描述物理世界中的概念及其相互關(guān)系;其基本組成單位是“實體-關(guān)系-實體”三元組,以及實體及其相關(guān)屬性-值對,,實體間通過關(guān)系相互聯(lián)結(jié),,構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒炇覐埲A平主任研發(fā)的KGB知識圖譜引擎,,KGB知識圖譜引擎(Knowledge Graph Builder)是基于自然語言理解,、漢語詞法分析,采用KGB語法從結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化文檔中抽取各類知識,,大數(shù)據(jù)語義智能分析與知識推理,,深度挖掘知識關(guān)聯(lián),實時高效構(gòu)建知識圖譜,。
KGB知識圖譜引擎核心技術(shù)與特色
1 ,、KGB知識抽取
KGB(Knowledge Graph Builder)知識圖譜引擎是我們自主研發(fā)的知識圖譜構(gòu)建與推理引擎,基于漢語詞法分析的基礎(chǔ)上,,采用KGB語法實現(xiàn)了實時高效的知識生成,,可以從非結(jié)構(gòu)化文本中抽取各類知識,并實現(xiàn)了從表格中抽取的內(nèi)容等,。
KGB知識圖譜引擎可以定義不同的動作,,增加、刪除,、修改,、抽取等等。每一類動作還能自定義各類后處理程序,。
2 ,、語義智能分析
NLPIR大數(shù)據(jù)語義智能分析針對大數(shù)據(jù)內(nèi)容采編挖搜的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集,、自然語言理解,、文本挖掘和語義搜索的新研究成果,先后歷時十八年,,服務(wù)了全球四十萬家機構(gòu)用戶,,是大數(shù)據(jù)時代語義智能分析的一大利器,。
NLPIR大數(shù)據(jù)語義智能分析十三大功能:精準(zhǔn)采集、文檔抽取,、新詞發(fā)現(xiàn),、批量分詞、語言統(tǒng)計,、文本聚類,、文本分類、摘要實體,、智能過濾,、情感分析、文檔去重,、全文檢索與編碼轉(zhuǎn)換,。
3 、語義精準(zhǔn)搜索
JZSearch大數(shù)據(jù)語義精準(zhǔn)搜索引擎:是靈玖軟件聯(lián)合中科院與北理工的信息檢索專家,,針對大數(shù)據(jù)垂直搜索需求的全文智能檢索引擎,,融合了自然語言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),,通過人機互動,、深度機器學(xué)習(xí)后具有一定的語義推理能力,是結(jié)合了人工智能技術(shù)的新一代搜索引擎,,具有專業(yè)精準(zhǔn),、高擴展性和高通用性的特點。
大數(shù)據(jù)時代對人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),,也為人們獲得更為深刻,、全面的洞察能力提供了**的空間?;ヂ?lián)網(wǎng)時代的數(shù)據(jù)正在迅速膨脹,,它決定著組織的未來發(fā)展,隨著時間的推移,,人們將越來越意識到數(shù)據(jù)對組織的重要性,。這將促使中文信息處理方面的高效中文搜索引擎,、實時機器翻譯,、大規(guī)模中文文本處理、跨平臺中西文自動識別轉(zhuǎn)換,、泛中文語義理解,、中文電子商務(wù)等技術(shù)實現(xiàn)重大突破。中文信息處理已成為我國信息技術(shù)研究,、發(fā)展,、應(yīng)用和產(chǎn)業(yè)的基礎(chǔ),,在互聯(lián)網(wǎng)日益成長的今天,中文信息處理技術(shù)將會更加成熟并創(chuàng)新,。
|