成立仅2年半的探境科技,凭什么在智能家居领域卖出100万颗芯片?
2019-12-27 14:20 智能家居 探镜科技 鲁勇

成立仅2年半的探境科技,凭什么在智能家居领域卖出100万颗芯片?

算法和芯片需要匹配。不可能脱离芯片谈算法。

成立仅两年半的探镜科技,走完了从芯片研发到商业化落地的全流程,在智能家居这个领域,卖出了100万颗芯片芯片,营收过千万元。

近日,探境科技举办了AI算法黑科技发布会暨客户交流会。会上,探境科技以音旋风61X为例,从AI算法和SFA架构,对此进行了揭秘。

探境科技副总裁李同治,围绕单双麦克风分别展示了探境科技在算法层面的突破。

在单麦克风条件下,探境科技的AI算法体现在两个方面:第一,性能优异适应性强的语音降噪算法。

一个典型的语音识别系统的流程图由麦克风、降噪处理、语音识别、文字识别结果四个部分组成。其中,降噪处理、语音识别是核心模块。

在降噪处理方面,探境科技推出基于AI的语音降噪算法。据了解,该算法基于深度学习,不仅能够处理稳态的噪声,也能过滤非稳态的突发性噪声。李同治称,为了验证AI降噪算法的有效性,探境科技的员工将一批信噪比在3dB左右的语音数据送到一个知名云端识别引擎做了测试,发现降噪后比降噪前的识别率能够提升30%以上。

第二,高计算强度神经网络HONN。神经网络HONN是为了更好地识别语音,解决语音识别系统的流程图中的语音识别。神经网络HONN有别于目前语音识别算法里较为流行的DNN/DTNN。

传统的基于DNN/TDNN的语音识别算法框架里,多使用类似全连接的操作来构建整个网络模型。相比较于全连接操作,卷积操作能够提供更高的计算强度,同时研究发现卷积运算与人类大脑负责感知模块的处理方法类似,能够提取满足大脑认知的本质特征。基于上面两点考虑,探境科技加入了更多的卷积操作,重新设计了声学建模单元的网络结构。

具体的设计方法是将计算机视觉中的一些经验迁移到语音识别中,设计了一个高计算强度的神经网络,探境科技称其为HONN。

1577426846771

(DNN)

1577426866055

(HONN)

李同治在现场展示了一个HONN和DNN的对比,以佐证HONN能够明显提升识别率的实验。

1577426877903

“我们看下两个模型对存储的需求,可以看出高计算强度的模型仅需要350k的存储空间,而DNN需要1.6M的存储空间。更低的存储需求意味着我们可以使用存储更少、成本更低的芯片来做语音识别。但是所需的算力相反,高强度模型单帧处理需要超过100M的Ops,而一般的DNN模型需要3.2MOPs的算力。两者相差超过30倍。相对安静的环境下两者之间差别不大,但是当信噪比进一步降低时,基于HONN的方法识别优势非常明显。”李同治说。

实际生活中,还有一些场景需要在更高的噪声环境或者更远的场景下进行识别,比如扫地机上的语音控制,或者是坐在客厅里看电视时控制其它房间里面的电器等等。这些场景下单麦克风孤掌难鸣,需要使用麦克风阵列来进一步提升性能,为此探境科技对算法进行了全新的升级,也即FCSP双麦识别。

1577426890704

传统的麦克风阵列处理算法的缺点有4个:1、DOA依赖于单麦唤醒词检测,使用场景受限;2、两个环节优化目标不一致,降噪与识别可能不适配;3、对硬件要求高,提高BOM成本;4、无法处理干扰源与目标声源方向接近时的状况。

为了克服传统分模块语音增强算法的这些缺点,探境科技设计出了基于FCSP的端到端AI双麦算法。FCSP(Frequency Complex Subspace Projection)是探境自研的频域复数子空间投影算法的简称。

这个算法直接输入阵列信号,输出的是最终的识别结果,中间部分全部交给基于深度学习的AI算法来处理,不再使用传统的数字信号处理方法。信号增强与识别模块整体以降低识别错误率为目标进行优化,避免了语音增强与语音识别模块错配的问题。

1577426916050

另外,在模型训练期间,采取了“注意力增强”的学习方法,能够灵敏的检测到唤醒词和命令词,即使干扰信号与目标信号方向接近,也能灵敏的进行唤醒和识别。“这个类似于在一个嘈杂的环境里面,如果有人喊自己的名字,一下子就能反应过来。”李同治说。

1577426932567

据了解,目前,“端到端”是国际上最前沿的处理算法。一些大厂如亚马逊、谷歌公司,也是通过类似的方法。据媒体报道,谷歌公司采用了Factored Model in Frequency的算法,相对错误率降低至16%,双麦达到了传统算法7麦的识别率。探境科技采取了频域复数子空间投影,抗噪性能强,在信噪比为0dB时,相对于传统的处理算法,相对识别错误率降低超过20%。

算法和芯片需要匹配。不可能脱离芯片谈算法。和AI算法相匹配的是音旋风61X的芯片。目前,市面上,语音芯片大多由MCU和DSP构成。“这类产品去年就有台湾的厂商在推广,而且芯片公司没有算法,搭配了台湾的某算法大厂,结果呢,效果差到没法接受,就算是MCU价格便宜,这个市场也做崩了。”探境科技创始人兼CEO鲁勇表示。 

探境的语音芯片,通过SFA架构解决AI芯片存储墙问题。鲁勇认为,存储优先的芯片架构 SFA(Storage First Architecture),以存储来驱动计算,推翻冯诺依曼体系,不同于之前的类CPU,是一个颠覆性的芯片架构。

从探境提供的实测数据来看,在同等条件下,数据访问可降低10~100倍,存储子系统功耗下降10倍;28nm工艺,系统能效超过4T OPS/W。“实验数据表明,SFA架构所采用的各种微观和宏观调度算法,比较“类CPU架构”采用的基于总线和指令集的映射方法,在近似存储量、近似算力、近似外部存储带宽、近似功耗约束的前提下,可以获得8~12倍的利用率收益。”

在28nm常规工艺芯片的对比测试中,测试方法为带有卷积加速器扩展指令的DSP模式与SFA架构模式的对比。SFA架构在乘法器数目相同情况下,结果如下表。(DRAM为LPDDR4)。

1577427170034

会上,鲁勇还和世强科技生态合作部刘学锋、阿凡达总经理冯惠军进行了战略合作伙伴签约。据了解,世强是中国电子行业最优秀的分销企业之一,成立于1993年,是全球数十家著名半导体企业在大中国区的重要分销商。阿凡达智控,创立于2015年,是一家致力于智能语音控制与交互技术研究、创意产品设计和生产销售的创新型科技企业。“SFA(存储优先)架构是探境的产品基石,正是借助SFA的优势,我们的AI芯片产品才能‘裂变式’的推出,大大加快了探境的商业化落地速度。”鲁勇这样评价SFA架构的意义。

1577427016729

世强科技生态合作部刘学锋,探境科技创始人兼CEO鲁勇(右一)

1577427028947

阿凡达智控总经理冯惠军,探境科技创始人兼CEO鲁勇(右一)

据了解,截至目前,探境科技有近30家合作伙伴。探境科技的芯片用到了灯具、热水器、垃圾桶、空气净化器、抽油烟机、空调、窗帘、晾衣架、咖啡机等上面。

值得一提的是,探境科技还揭秘了探境图像芯片的真容。探境图像芯片目前,已经流片成功。探境图像芯片进一步丰富了离在线一体、探境全栈式平台化发展战略。

1577427041452

李夜
文章评价
匿名用户
发布