随着智能家居、移动设备及车载信息系统等领域中智能语音助手应用的日益普及,我们不妨思考:Web端管理平台能否也实现类似功能呢?可以肯定的是,这在技术上是完全可以实现的;至于是否好用、能否得到客户认可,那就是另外一个问题了。而提到语音助手,语音识别则是其中的关键技术之一。本文主要介绍如何使用阿里云的智能语音交互服务,实现实时语音识别功能。

开通服务

要使用阿里云的智能语音交互服务,首先需要开通服务。

进入 智能语音交互产品首页,单击“开通并购买”即可开通智能语音交互服务。阿里云提供3个月的免费试用,对于测试来说已经足够了。

RAM用户

在接入阿里云之前,我们先来了解一下RAM用户。这是官方文档中的定义和使用流程,我们可以简单理解为他是阿里云账号或其他RAM用户的子账号,并且阿里云强烈建议开发者使用RAM用户来登录控制台、调用API。

创建用户

RAM访问控制/用户 控制台这里创建好用户,并在用户详情页面,创建该用户的 AccessKey。创建好之后,保存好 AccessKey ID 和 AccessKey Secret,后面会用到。

关于 AccessKey ID 和 AccessKey Secret 的说明,官方文档 中有详细的说明,这里不再赘述。

分配权限

另外记得给该用户分配相应的权限,这里只需要授予AliyunNLSFullAccess的权限即可。
授权.png

创建项目

接下来我们就可以进入 智能语音交互 控制台创建一个测试项目了,有些平台叫做“应用”,这里叫做“项目”,其实都是一个意思。主要是用来区分一个具体的项目、产品或服务。平台可以通过应用来监控和限制API请求的数量,以防止滥用;另外还能够基于单个应用收集数据,帮助开发者了解它们的使用情况和性能表现。

这一步我们会得到一个 Appkey,主要用来区分不同的应用,正如上面所说,如果不加以区分,平台是无法知道是哪个应用在调用API的,也就无法进行数据的统计分析。

获取Token

其实在上面有了 AccessKey ID 和 AccessKey Secret 之后就可以获取 Token 了,甚至都不需要 AccessKey ID 和 AccessKey Secret 也能获取 Token,因为阿里云贴心的提供了获取临时 AccessToken 的方式:
临时AccessToken.png

如果想通过代码获取 Token 的话,阿里云提供了3种获取 Token 的方式,详见官方文档

开发代码

了解这几个步骤、流程之后,就可以着手开发代码了。这里已经有一位兄弟实现了vue + websocket接入阿里云实时语音识别,代码完全可用,我就不重复造轮子了。

这里是 WebSocket 接入的官方文档。

源码

https://github.com/DoAutumn/aliyun-audio