語音識別是一門交叉學科,。近二十年來,,語音識別技術(shù)取得顯著進步,開始從實驗室走向市場,。人們預(yù)計,,未來10年內(nèi),語音識別技術(shù)將進入工業(yè),、家電,、通信、汽車電子,、**,、家庭服務(wù),、消費電子產(chǎn)品等各個領(lǐng)域。 語音識別聽寫機在一些領(lǐng)域的應(yīng)用被美國新聞界評為1997年計算機發(fā)展**事之一,。很多專家都認為語音識別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域**重要的科技發(fā)展技術(shù)之一,。 語音識別技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別,、概率論和信息論,、發(fā)聲機理和聽覺機理、人工智能等等,。
根據(jù)識別的對象不同,,語音識別任務(wù)大體可分為3類,即孤立詞識別(isolated word recognition),,關(guān)鍵詞識別(或稱關(guān)鍵詞檢出,,keyword spotting)和連續(xù)語音識別。其中,,孤立詞識別 的任務(wù)是識別事先已知的孤立的詞,,如“開機”、“關(guān)機”等,;連續(xù)語音識別的任務(wù)則是識別任意的連續(xù)語音,,如一個句子或一段話;連續(xù)語音流中的關(guān)鍵詞檢測針對的是連續(xù)語音,,但它并不識別全部文字,,而只是檢測已知的若干關(guān)鍵詞在何處出現(xiàn),如在一段話中檢測“計算機”,、“世界”這兩個詞,。
根據(jù)針對的發(fā)音人,可以把語音識別技術(shù)分為特定人語音識別和非特定人語音識別,,前者只能識別一個或幾個人的語音,,而后者則可以被任何人使用。顯然,,非特定人語音識別系統(tǒng)更符合實際需要,,但它要比針對特定人的識別困難得多。
另外,,根據(jù)語音設(shè)備和通道,,可以分為桌面(PC)語音識別、電話語音識別和嵌入式設(shè)備(手機,、PDA等)語音識別,。不同的采集通道會使人的發(fā)音的聲學特性發(fā)生變形,因此需要構(gòu)造各自的識別系統(tǒng),。
語音識別的應(yīng)用領(lǐng)域非常廣泛,,常見的應(yīng)用系統(tǒng)有:語音輸入系統(tǒng),,相對于鍵盤輸入方法,它更符合人的日常習慣,,也更自然,、更高效;語音控制系統(tǒng),,即用語音來控制設(shè)備的運行,,相對于手動控制來說更加快捷、方便,,可以用在諸如工業(yè)控制,、語音撥號系統(tǒng)、智能家電,、聲控智能玩具等許多領(lǐng)域,;智能對話查詢系統(tǒng),根據(jù)客戶的語音進行操作,,為用戶提供自然,、友好的數(shù)據(jù)庫檢索服務(wù),例如家庭服務(wù),、賓館服務(wù),、旅行社服務(wù)系統(tǒng)、訂票系統(tǒng),、**服務(wù),、銀行服務(wù)、股票查詢服務(wù)等等,。