語音識別效果不好

如果每次 用戶說話的前 2個字識別不到 可以關閉 靜音抑制。 具體到語音網關 找到相關配置。

1 為什么 科大輸入法識別效果很好,我們的系統識別效果卻不好

科大輸入發是 16000hz采樣的聲音 電話是 8000hz采樣的聲音。不具有可比性

2 能不能把聲音也轉換成 16000hz的然后再識別呢

100萬像素的圖片,你轉成 1000萬像素保存,圖片會變清晰嗎, 聲音也是一個道理,聲音的采樣率和圖片像素是一個概念。所以 8000轉到16000完全沒用。

3 到底怎么樣可以提高識別率
1) 想辦法提高聲音質量,比如用數字線路,如果無線網關放信號好的位置,用g711編碼。
2) 可以換一個語音識別引擎,比如科大SDK試試。 多個識別引擎對比一下,找一個合適你的。
3) 把關鍵詞上傳到識別引擎后臺,科大語音聽寫SDK接口的上傳關鍵詞地方是 (服務管理->個性化聽寫)
4) GOIP設備
設備放到信號好的地方 (信號不好會丟包)
關閉設備的靜音抑制功能 (開了靜音抑制,容易出現前1-2個字 沒識別到)
設備后臺把用戶說話(輸入)音量調大 (如果用戶說話音量不夠大容易出現,機器人在說話時,用戶說話識別不到,也就是不能打斷,很多設備對雙方同時說話支持不好)

4 線路聲音編碼和識別率有影響嗎
有的,各種聲音編碼都是有損壓縮,識別率最好的情況是 e1或者IMS (G711編碼)。g729,編碼后的聲音會更不清晰。

5 什么線路音質最好
e1 > ims > sim
E1 就是數字中繼
IMS 就是數字中繼IP化
SIM 就是手機卡

5 SIM卡音質怎么樣
現在SIM還是用 GSM網絡,或者3G網絡或者CDMA網絡
我網上找了一個資料,大家可以自己看看 (總之現在 4G只用數據功能語音還是 2G或者3G聲音都不如E1或者IMS)

一 音頻采樣

GSM作為一個全數字的系統,對于語音數據首先進行數字化的量化。也就是模擬的音頻信號轉化成數字信號,再進行數字化的傳輸。聲音的數字化就包括采樣和量化。

GSM主要是傳輸人的聲音,因此人發出的聲音的頻率也就影響了系統的采樣頻率。通常人發出的聲音頻率在85~1100HZ,其中人耳敏感的頻率范圍是1~4KHZ。聲波的主要頻率分布20~3400HZ。


  1. 奈奎特定律證明:只要取樣的頻率大于原始信號的頻率兩倍之上,信號可以完全有采樣樣本來恢復。因此GSM規范采用8KHZ的采樣頻率,完全滿足人耳分辨聲音的需要。

二 語音編碼

對于麥克風里面的聲音,以8KHZ采樣率13位精度進行采樣,得到的速率就是104kbps的源數據流。這樣的碼率對于GSM來說比較大,因此要對語音進行壓縮編碼,以便于傳輸。

GSM系統通常采用四種編解碼器:

1) 半速率 位速率5.6Kbps 壓縮比18.4 編解碼類型VSELP

最早的GSM網絡使用GSM-HR(Half Rate)標準,編碼速率低,感覺普遍不佳。

2)EFR 位速率12.2Kbps 壓縮比8.5 編解碼類型ACELP


  1. EFR聲碼器是一種代數碼激勵線性預測(ACELP)編碼器

3)全速率 位速率13Kbps 壓縮比8 編解碼類型RTE-LTP LPC

長期預測(LTP)與規則脈沖激勵(RPE),而全速率編解碼器就被稱為RPE-LTP線性預測編碼器。

4)AMR 位速率12.2-4.75 壓縮比8.5-21.9 編解碼類型ACELP


  1. WCDMA網絡主要是采用AMR編碼方案。GSM主要還是EFR或者是全速率,屬于窄帶技術。

三 AMR-NB與AMR-WB AMR-WB+

AMR NB的語音帶寬范圍:300-3400Hz,8KHz采樣 AMR WB的語音帶寬范圍: 50-7000Hz,16KHz采樣 AMR-WB+的采樣速率是在16~48 kHz之間。這使得它的語音帶寬更寬(24 kHz)

在4G時代,LTE網絡采用AMR-WB 和AMR-WB+,來傳輸高清語音數據。

總結:

當前的語音網絡中,GSM普遍采用全速率或者EFR。3G通信普遍使用AMR-NB。AMR-WB或者AMR-WB+目前在國內的運營商還沒有采用。編碼器對每20ms采用的語音信號封裝成塊,經過編碼處理,最后形成數據幀。發送到網絡上。


极速快乐十分开奖结果查询 安徽快3时时彩遗漏 15选5中2个有钱吗 35选7辽宁福彩官网 快3走势图北京 推广网贷app赚佣 塑胶篮球场材料 刮刮乐最新 德甲多特蒙德主场 百家乐论坛 四川麻将血流成河全集