语音识别功能曾经只限于手机和一些高端电脑,但现在从汽车到咖啡机等一切设备都包含了语音识别或语音激活功能。无论你是在开发需要检测音频样本中特定音调的工业产品,还是想要通过喊叫让你的空调进入超驱模式,你都需要一套完整的音频捕获和语音识别芯片组。
语音识别功能过去是在软件层面定义的,同时伴随着一系列用于信号调理和处理的混合硬件。当前最佳的经济型语音识别芯片组产品将许多以前分开的功能集成到了单一的集成电路(IC)中。如果你正在寻找用于物联网产品的强大语音识别芯片组件,请查看下面的选项。
这个问题的答案不仅仅是选择一个带有正确带宽的麦克风和ADC。构建语音识别芯片组的这两个方面都很重要,但是要超越仅仅记录语音数据,还需要一些处理步骤。在将捕获的音频转换为数字信号后,必须执行一些DSP任务,以提供有意义的用户体验。
如果你曾经用一款工作室质量的麦克风听过自己的录音,那么你可能会注意到一些需要为了准确的语音/语言识别而移除的人工制品。一类特定的音频DSP集成电路,被称为远场IC,非常适合于在准备语音识别过程中移除信号人工制品。这些组件作为语音识别的一部分提供了一些重要的功能:
一旦捕获的语音信号被预处理,就可以通过在硬件或软件级别实现的算法从语音模式中检测出单词。在语音识别的目标中,不深入计算方面,是将一系列声学签名分类为大字典中的许多单词之一。简单的自然语言处理(NLP)模型,如朴素贝叶斯分类器,只要执行正确的信号处理步骤,就可以提供高度准确的分类。
理论上,任何DSP IC,或MCU和音频编解码器IC,都可以作为语音识别芯片组的一部分使用。下面展示的产品只是针对语音识别应用的几个选项。
为了提供这些预处理和分类步骤的足够延迟,任何执行片上分类的DSP IC都应提供至少几个MIPS的计算速度。分类步骤也可能需要成千上万的计算。标准I/O(即,I2C和GPIO)也对于与系统中的其他组件接口很有用。你可能需要一个外部处理器来实现分类,并将你的DSP限制为仅执行预处理步骤。下面的组件展示了当前DSP的能力以及可以从即将推出的SoCs中期待什么。
来自Microchip的DSPIC30F系列信号处理器在语音识别成为新硬件标配之前就已经发布。这一系列的DSP IC旨在用于工作室级数字音乐制作,但Microchip已经发布了一个语音识别库,以扩展这一系列组件的可用应用。设计师可以将这个组件应用于一些高端语音识别应用,因为这一系列提供高达24位的音频捕获和高频率(30 MIPS)。
来自[DSPIC30F数据手册]的示例应用图
德州仪器的OMAP5910JZZG2 DSP是一款适用于多种应用的高度适应性DSP,包括视频加速、语音识别、加密/解密和图像/视频水印。这款低功耗设备直接在芯片上集成了多种功能,包括主机接口、10个GPIO以及其他外设。尽管这是一款较旧的DSP,但它仍然是预处理语音信号的强大选择,并且仍在生产中。
Synaptics的CX20921-21Z SoC通常用于智能家居系统。想要与Microsoft Cortana或Amazon Alexa集成的设计师将可以访问用于嵌入式应用开发的SDK。这个组件可以使用2个麦克风或4个麦克风阵列。它以24位和106 dB的动态范围捕获声音。每个麦克风通道的可用采样率范围从8 kHz到96 kHz。
Synaptics的CX20921-21Z SoC的评估板。来自Synaptics AudioSmart开发套件。
物联网革命没有放缓的迹象,集成捕获、调节、处理和系统控制的新型SoC将很快全面上市。当您在寻找语音识别芯片组时,您可以在Octopart找到所需的组件。