語音識別是一門交叉學(xué)科,。近二十年來,,語音識別技術(shù)取得顯著進(jìn)步,開始從實驗室走向市場,。人們預(yù)計,,未來10年內(nèi),語音識別技術(shù)將進(jìn)入工業(yè),、家電,、通信、汽車電子,、**,、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域,。 語音識別聽寫機(jī)在一些領(lǐng)域的應(yīng)用被美國新聞界評為1997年計算機(jī)發(fā)展**事之一,。很多專家都認(rèn)為語音識別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域**重要的科技發(fā)展技術(shù)之一。 語音識別技術(shù)所涉及的領(lǐng)域包括:信號處理,、模式識別,、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理,、人工智能等等,。
根據(jù)識別的對象不同,語音識別任務(wù)大體可分為3類,,即孤立詞識別(isolated word recognition),,關(guān)鍵詞識別(或稱關(guān)鍵詞檢出,keyword spotting)和連續(xù)語音識別,。其中,,孤立詞識別 的任務(wù)是識別事先已知的孤立的詞,如“開機(jī)”,、“關(guān)機(jī)”等,;連續(xù)語音識別的任務(wù)則是識別任意的連續(xù)語音,如一個句子或一段話,;連續(xù)語音流中的關(guān)鍵詞檢測針對的是連續(xù)語音,,但它并不識別全部文字,而只是檢測已知的若干關(guān)鍵詞在何處出現(xiàn),,如在一段話中檢測“計算機(jī)”,、“世界”這兩個詞。
根據(jù)針對的發(fā)音人,,可以把語音識別技術(shù)分為特定人語音識別和非特定人語音識別,,前者只能識別一個或幾個人的語音,,而后者則可以被任何人使用。顯然,,非特定人語音識別系統(tǒng)更符合實際需要,,但它要比針對特定人的識別困難得多。
另外,,根據(jù)語音設(shè)備和通道,,可以分為桌面(PC)語音識別、電話語音識別和嵌入式設(shè)備(手機(jī),、PDA等)語音識別,。不同的采集通道會使人的發(fā)音的聲學(xué)特性發(fā)生變形,因此需要構(gòu)造各自的識別系統(tǒng),。
語音識別的應(yīng)用領(lǐng)域非常廣泛,,常見的應(yīng)用系統(tǒng)有:語音輸入系統(tǒng),相對于鍵盤輸入方法,,它更符合人的日常習(xí)慣,,也更自然、更高效,;語音控制系統(tǒng),,即用語音來控制設(shè)備的運行,相對于手動控制來說更加快捷,、方便,可以用在諸如工業(yè)控制,、語音撥號系統(tǒng),、智能家電、聲控智能玩具等許多領(lǐng)域,;智能對話查詢系統(tǒng),,根據(jù)客戶的語音進(jìn)行操作,為用戶提供自然,、友好的數(shù)據(jù)庫檢索服務(wù),,例如家庭服務(wù)、賓館服務(wù),、旅行社服務(wù)系統(tǒng),、訂票系統(tǒng)、**服務(wù),、銀行服務(wù),、股票查詢服務(wù)等等。