目前有不少芯片都可以實(shí)現(xiàn)語(yǔ)音控制功能,語(yǔ)音芯片實(shí)現(xiàn)語(yǔ)音控制功能的核心邏輯是通過(guò)本地硬件進(jìn)行一系列的流程化操作,不依賴云端大模型。其核心流程是聲音采集→信號(hào)處理→語(yǔ)義識(shí)別→發(fā)出指令→執(zhí)行指令的一個(gè)過(guò)程,下面小編就根據(jù)語(yǔ)音芯片的工作過(guò)程展開(kāi)講解。

1.聲音的采集和識(shí)別
語(yǔ)音芯片通過(guò)麥克風(fēng)接受到人發(fā)出的聲音然后轉(zhuǎn)換成為電信號(hào),ADC接著把電信號(hào)轉(zhuǎn)換成為數(shù)字信號(hào),然后把這些數(shù)字信號(hào)發(fā)送到DSP進(jìn)行處理,最終通過(guò)語(yǔ)音芯片上的本地化ASR完成聲音的采集和識(shí)別。
2.單麥克風(fēng)和多麥克風(fēng)的區(qū)別
這其中麥克風(fēng)的的數(shù)量以及降噪算法會(huì)影響到語(yǔ)音芯片的識(shí)別精準(zhǔn)度,通過(guò)語(yǔ)音芯片上的ASR模型也會(huì)影響到識(shí)別的精準(zhǔn)度,在預(yù)算充足的情況下多麥克陣列優(yōu)于單麥。
3.識(shí)別以后怎么執(zhí)行指令
簡(jiǎn)單的理解就是語(yǔ)音芯片上裝有一個(gè)TTS,可以把聲音轉(zhuǎn)換為文字,然后把提取到的聲音和本地的指令庫(kù)進(jìn)行匹配,識(shí)別出用戶的具體需求。芯片內(nèi)置輕量化 AI
模型(如 CNN、RNN 的簡(jiǎn)化版,或?qū)iT優(yōu)化的 Transformer
模型),這些模型通過(guò)海量語(yǔ)音樣本(不同口音、語(yǔ)速、環(huán)境下的指令)預(yù)訓(xùn)練,具備泛化識(shí)別能力;以WT2606系列為例,可以最高支持300條本地指令,對(duì)于絕大多數(shù)離線語(yǔ)音芯片來(lái)說(shuō)已經(jīng)夠用了,如果還不夠用的情況下WT2606還可以通過(guò)鏈接云端大模型實(shí)現(xiàn)無(wú)限指令。
在語(yǔ)音芯片識(shí)別指令以后,通過(guò)控制接口輸出芯片,驅(qū)動(dòng)外設(shè)完成指令動(dòng)作,實(shí)現(xiàn)語(yǔ)音控制功能。
4.離線語(yǔ)音芯片的選型
目前市場(chǎng)上離線語(yǔ)音芯片或模塊其實(shí)是有很多的,但是面向的場(chǎng)景有比較大的區(qū)別,即便都是離線語(yǔ)音芯片但是芯片的識(shí)別能力降噪能力還有指令條數(shù)都有蠻大的差別的,當(dāng)然拋開(kāi)價(jià)格談性能是有點(diǎn)耍流氓了,因?yàn)楸镜厮懔υ綇?qiáng)的芯片其價(jià)格也必然是水漲船高。
總結(jié):離線語(yǔ)音芯片實(shí)現(xiàn)語(yǔ)音控制的核心,是 “硬件加速(NPU/DSP)+ 本地化算法(特征提取、識(shí)別模型)+ 場(chǎng)景化優(yōu)化(降噪、喚醒)”
的協(xié)同*。不同芯片的差異體現(xiàn)在:支持的指令數(shù)量(10-1000 條)、識(shí)別距離(1-10 米)、功耗(μA
級(jí)待機(jī))、抗噪能力等,需根據(jù)應(yīng)用場(chǎng)景(如智能家居、車載、穿戴設(shè)備)選擇適配產(chǎn)品。