|
|
隨著中國的經(jīng)濟(jì)迅速發(fā)展和對外交往的日益頻繁,,中文在國際上的地位也逐步提高,。盡管中文被認(rèn)為是世界上**難學(xué)的語言之一,但近年來,,世界上學(xué)中文的人還是不斷增加,,這些人遍布亞洲,、歐洲、美洲,、非洲,。而學(xué)習(xí)中文的人也不單純是學(xué)習(xí)語言、文化,、歷史專業(yè)的學(xué)生,,許多國家學(xué)習(xí)經(jīng)濟(jì)、貿(mào)易,、法律專業(yè)的大學(xué)生也開始學(xué)習(xí)中文,,他們認(rèn)為掌握中文會對就業(yè)和工作有幫助。
中文信息處理分為漢字信息處理與漢語信息處理兩部分,,具體內(nèi)容包括對字,、詞、句,、篇章的輸入,、存儲、傳輸,、輸出,、識別、轉(zhuǎn)換,、壓縮,、檢索、分析,、理解和生成等方面的處理技術(shù),。用計算機(jī)來處理漢語信息,就是漢語信息處理,,又稱中文信息處理,。
中文信息處理是有關(guān)中文信息的采集、存儲,、傳輸和利用,,是指利用電子計算機(jī)和現(xiàn)代通信、照明,、排版,、等自動化技術(shù)對漢字信息進(jìn)行輸入輸出整理,、加工、轉(zhuǎn)換,、傳輸,、復(fù)制、等各種處理的一項新興的科學(xué)技術(shù),。其交叉性使之成為“信息科學(xué)”的分支;其綜合性應(yīng)用使之成為“系統(tǒng)工程”的一個實例,。它涉及到語言文字學(xué)、計算機(jī)科學(xué),、信息科學(xué),、工程心理學(xué)、數(shù)理統(tǒng)計學(xué),、聲學(xué),、自動識別技術(shù)、人工智能,、網(wǎng)絡(luò)技術(shù),、文獻(xiàn)檢索學(xué)等等。故可以說它是一門新興的多邊緣科學(xué),。中國要實施的信息處理技術(shù)手段,,中文信息化是一項重要的資源開發(fā)工作。中文信息網(wǎng)已逐漸成為我國現(xiàn)代化社會的神經(jīng)系統(tǒng),,它將促進(jìn)人民文化和社會生產(chǎn)效率迅速提高,。中文信息處理工程已建立起現(xiàn)代化中文語言文字信息系統(tǒng),使凝聚在語言文字中的知識信息發(fā)揮更大效能,,使?jié)h語漢字得到**利用,。
目前中文信息處理能力與國際上水平差距還很大。例如:自動分詞和詞性標(biāo)注,,至今還未開發(fā)出一個像日語分詞系統(tǒng)那樣被廣為接受的分詞標(biāo)注系統(tǒng),。從采用的方法可以看出,隨著研究的不斷深入,,基于統(tǒng)計的方法已逐漸暴露自身的缺陷,,統(tǒng)計方法不可能解決所有的問題,還是需要結(jié)合基于規(guī)則的方法,,才能在精度上得以突破;
中文信息處理句法分析和語義分析問題;中文信息處理應(yīng)用研究的問題,,比如信息輸入中的鍵盤輸入和漢字識別發(fā)展已經(jīng)成熟,但語音識別卻很實現(xiàn),,困難是要適應(yīng)不同人之間的語音變化以及外界的噪音干擾;中文信息處理研究分散而且存在著低層次重復(fù),、缺乏統(tǒng)一規(guī)范和標(biāo)準(zhǔn)的問題;現(xiàn)代漢語研究領(lǐng)域和計算機(jī)領(lǐng)域的隔絕狀態(tài)沒有出現(xiàn)根本性改變;漢語文和少數(shù)民族語言文字的信息處理技術(shù)與國際水平相比,還有相當(dāng)大的差距。
NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集,、自然語言理解,、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。
NLPIR大數(shù)據(jù)語義智能分析平臺主要有精準(zhǔn)采集,、文檔轉(zhuǎn)化,、新詞發(fā)現(xiàn)、批量分詞,、語言統(tǒng)計,、文本聚類、文本分類,、摘要實體、智能過濾,、情感分析,、文檔去重、全文檢索,、編碼轉(zhuǎn)換等十余項功能模塊,,平臺提供了客戶端工具,云服務(wù)與二次開發(fā)接口等多種產(chǎn)品使用形式,。各個中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,,可兼容Windows,Linux,, Android,,Maemo5, FreeBSD等不同操作系統(tǒng)平臺,可以供Java,,Python,,C,C#等各類開發(fā)語言使用,。
隨著信息技術(shù)在我國社會生活各個領(lǐng)域應(yīng)用的深入,中文信息處理正在成為人們工作和生活中不可或缺的手段,,中文信息處理將具有更加廣闊的市場。這將促使中文信息處理方面的高效中文搜索引擎,、實時機(jī)器翻譯,、大規(guī)模中文文本處理、跨平臺中西文自動識別轉(zhuǎn)換,、泛中文語義理解,、中文電子商務(wù)等技術(shù)實現(xiàn)重大突破。中文信息處理已成為我國信息技術(shù)研究,、發(fā)展,、應(yīng)用和產(chǎn)業(yè)的基礎(chǔ),在互聯(lián)網(wǎng)日益成長的今天,中文信息處理技術(shù)將會更加成熟并創(chuàng)新,。
|