IoT中的语音识别芯片组包含什么？

已创建：五月 15, 2020
已更新：August 21, 2024

语音识别功能曾经只限于手机和一些高端电脑，但现在从汽车到咖啡机等一切设备都包含了语音识别或语音激活功能。无论你是在开发需要检测音频样本中特定音调的工业产品，还是想要通过喊叫让你的空调进入超驱模式，你都需要一套完整的音频捕获和语音识别芯片组。

语音识别功能过去是在软件层面定义的，同时伴随着一系列用于信号调理和处理的混合硬件。当前最佳的经济型语音识别芯片组产品将许多以前分开的功能集成到了单一的集成电路(IC)中。如果你正在寻找用于物联网产品的强大语音识别芯片组件，请查看下面的选项。

什么构成了成功的语音识别？

这个问题的答案不仅仅是选择一个带有正确带宽的麦克风和ADC。构建语音识别芯片组的这两个方面都很重要，但是要超越仅仅记录语音数据，还需要一些处理步骤。在将捕获的音频转换为数字信号后，必须执行一些DSP任务，以提供有意义的用户体验。

如果你曾经用一款工作室质量的麦克风听过自己的录音，那么你可能会注意到一些需要为了准确的语音/语言识别而移除的人工制品。一类特定的音频DSP集成电路，被称为远场IC，非常适合于在准备语音识别过程中移除信号人工制品。这些组件作为语音识别的一部分提供了一些重要的功能：

主动增益控制：本质上，这是通过监听任何可以被归类为人声的声音。一旦识别出人声，处理器就会增加捕获信号的增益。一些处理器可以更进一步，随着更多数据的捕获主动修改增益。
波束成形：这需要一组麦克风，可以通过检测不同转换音频信号之间的相位差来确定声源的方向。如果你熟悉相控阵天线，那么这就是它的音频类比，即相控阵麦克风。
混响和回声抑制：回声抑制解决方案也可以在硬件级别使用麦克风阵列实现。当设备与声源的距离较大时，声音识别芯片组接收到的强烈回声可能会导致声音识别不准确，回声的可能性更大。算法也可以与单麦克风产品一起使用，以检测延迟并在时间域或频率域中抑制延迟信号。
参考噪声过滤：这一功能在车辆中非常重要，其中可能存在某些特定来源的背景噪声。背景噪声可能是道路/引擎噪声、收音机或紧急车辆的警报声。一些控制器在硬件级别包括参考噪声过滤，或者这可以与外部处理器（例如，MCU或FPGA）集成。

一旦捕获的语音信号被预处理，就可以通过在硬件或软件级别实现的算法从语音模式中检测出单词。在语音识别的目标中，不深入计算方面，是将一系列声学签名分类为大字典中的许多单词之一。简单的自然语言处理（NLP）模型，如朴素贝叶斯分类器，只要执行正确的信号处理步骤，就可以提供高度准确的分类。

适用于物联网产品的理想芯片组

理论上，任何DSP IC，或MCU和音频编解码器IC，都可以作为语音识别芯片组的一部分使用。下面展示的产品只是针对语音识别应用的几个选项。

为了提供这些预处理和分类步骤的足够延迟，任何执行片上分类的DSP IC都应提供至少几个MIPS的计算速度。分类步骤也可能需要成千上万的计算。标准I/O（即，I2C和GPIO）也对于与系统中的其他组件接口很有用。你可能需要一个外部处理器来实现分类，并将你的DSP限制为仅执行预处理步骤。下面的组件展示了当前DSP的能力以及可以从即将推出的SoCs中期待什么。

Microchip, DSPIC30F

来自Microchip的DSPIC30F系列信号处理器在语音识别成为新硬件标配之前就已经发布。这一系列的DSP IC旨在用于工作室级数字音乐制作，但Microchip已经发布了一个语音识别库，以扩展这一系列组件的可用应用。设计师可以将这个组件应用于一些高端语音识别应用，因为这一系列提供高达24位的音频捕获和高频率（30 MIPS）。

来自[DSPIC30F数据手册]的示例应用图

德州仪器，OMAP5910JZZG2

德州仪器的OMAP5910JZZG2 DSP是一款适用于多种应用的高度适应性DSP，包括视频加速、语音识别、加密/解密和图像/视频水印。这款低功耗设备直接在芯片上集成了多种功能，包括主机接口、10个GPIO以及其他外设。尽管这是一款较旧的DSP，但它仍然是预处理语音信号的强大选择，并且仍在生产中。

Synaptics，CX20921-21Z

Synaptics的CX20921-21Z SoC通常用于智能家居系统。想要与Microsoft Cortana或Amazon Alexa集成的设计师将可以访问用于嵌入式应用开发的SDK。这个组件可以使用2个麦克风或4个麦克风阵列。它以24位和106 dB的动态范围捕获声音。每个麦克风通道的可用采样率范围从8 kHz到96 kHz。