語音是新一代人機交互的方式,語音識別是實現(xiàn)這一方式的關鍵環(huán)節(jié),也是實現(xiàn)人工智能的基本步驟之一。本書結合當下使用廣泛的Kaldi工具,對語音識別的基本概念和流程進行了詳細的講解,包括GMM-HMM、DNN-HMM、端到端等常用結構,并探討了語音識別在實際應用中的問題,包括說話人自適應、噪聲對抗與環(huán)境魯棒性、小語種語音識別、關鍵詞識別與嵌入式應用等方面,也對語音技術的相關前沿課題進行了介紹,包括說話人識別、語種識別、情緒識別、語音合成等方向。本書的寫作以讓讀者快速、直觀地理解概念為目標,只展示最基本的數學公式,同時本書注重理解與實踐相結合,在對語音技術各個概念的講解中都展示了相應的Kaldi語音處理命令,以便讓讀者進一步融會貫通。本書適用于語音識別及相關技術的初學者、在校學生,以及基于Kaldi進行產品研發(fā)的同仁,也可以作為語音從業(yè)者的參考書目。