|
|
中文中有一詞多義,,相比英文分析,,中文語義分析的語義分析面臨更多技術(shù)難題。靈玖大數(shù)據(jù)在研發(fā)過程中,,充分考慮到了中文特殊性,,針對一詞多義和文章中出現(xiàn)的新地點名均提出了解決方案,,提高了中文語義分析的準(zhǔn)確性。
漢語智能分詞
中文分詞是語義分析的基礎(chǔ)階段,,是進行中文信息處理必備的核心部件,。靈玖綜合了各家所長,采用條件隨機場(Conditional Random Field,簡稱CRF)模型,。
條件隨機場運用CRF模型,,采用了先將漢語語言進行定性的方式分析語言,根據(jù)自然語言的運用環(huán)境對多義詞進行定義,極大地提高了中文語言解析的準(zhǔn)確性,,**詞性標(biāo)注準(zhǔn)確率接近99%,,準(zhǔn)確率高、速度快,、可適應(yīng)性強,。
除了對多義詞的高準(zhǔn)確率區(qū)分,在對一些地點和機構(gòu)名的識別問題上,,即使這類詞沒有事先存入系統(tǒng),,CRF模型同樣能夠自動挖掘出這類詞。條件隨機場極大地提高了識別的準(zhǔn)確率,,能夠滿足多樣場景需求,。
文本關(guān)鍵字提取
提取文章關(guān)鍵詞對于讀取文章的意義在于,在掌握文章的主題思想的前提下,,了解文章關(guān)鍵字能夠達到精華閱讀效果,,完成文章的語義查詢和快速匹配。采用基于語義分析的語言統(tǒng)計模型,,文檔使用的范圍也更加廣泛,,對新詞的識別率也很高。
關(guān)鍵詞提取組件的主要特點包括:
1,、速度快:實現(xiàn)對海量網(wǎng)絡(luò)文本處理,,實現(xiàn)每小時50篇文檔的高效處理模式。
2,、處理精準(zhǔn): N的結(jié)果反應(yīng)了文章的主要枝干方向,。
3、精準(zhǔn)排序:根據(jù)影響權(quán)重進行排序,,關(guān)鍵詞可以輸出權(quán)重值,;
4、開放式接口:作為LJParser的一部分,,文章關(guān)鍵詞能夠提取組件采用靈活的開發(fā)接口,,能夠方便地融入到用戶的業(yè)務(wù)系統(tǒng)中,以及支持各種操作系統(tǒng)和調(diào)用語言,。
自動文本摘要
對文章進行摘要提取能夠使用戶快速掌握文章內(nèi)容,,提供工作效率。
自動摘要的中間件能夠處理的不只是單篇文章的摘要提取,,還包括對同類型的文章進行處理,,提取出一篇簡明扼要的摘要。同時,,用戶可以自由設(shè)定摘要的長度,、百分比等參數(shù),;處理速度達到每秒鐘20篇。
靈玖軟件專注于大數(shù)據(jù)語義智能分析,,憑借其在自然語言處理,、信息檢索、信息過濾,、知識圖譜等方向的**核心技術(shù)積累,,形成了面向大型企業(yè)和政府軍隊的一系列語義智能化軟件系統(tǒng)。
|