腾讯云语音识别(Automatic Speech Recognition,ASR) 为开发者提供语音转文字服务的最佳体验。语音识别服务经微信、腾讯视频、王者荣耀等大量内部业务验证,同时也在线上线下大量外部客户业务场景下成功落地,具备识别准确率高、接入便捷、性能稳定等特点。腾讯云语音识别服务开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型开发者需求。 

实时语音识别

对实时音频流进行识别,可应用于语音输入、语音机器人等实时音频流场景

 

一句话识别

对60秒之内的短音频文件进行识别,可应用于语音消息转写等场景

录音文件识别

对一小时之内的录音文件进行识别,可应用于字幕生成,语音资料转写等场景

腾讯云语音识别(Automatic Speech Recognition,ASR)为开发者提供语音转文字服务的最佳体验。

经公司内部微信、QQ 、腾讯视频、王者荣耀等大体量业务充分验证,也在大量互联网、金融、教育等领域的外部客户业务场景成功落地,日服务亿级用户。具有海量数据支撑、算法业界领先、支持语种丰富、服务性能稳定、抗噪音能力强、识别准确率高等优势。

 

功能

腾讯智能语音产品提供多场景强大功能,满足不同类型开发者需求。语音识别分为三种服务,您可以根据使用场景进行选择:

实时语音识别

  • 对长音频流进行识别,支持智能断句,实时识别为文字。

  • 适用于持续时间较长、有一定实时性要求的场景,例如语音输入、会议现场记录、电话会议记录、会场字幕、直播内容审核、视频直播字幕、智慧法庭记录、客服通话内容记录等场景。

  • 语言和方言:语音识别服务目前支持中文普通话,和带有一定方言口音的普通话识别;实时语音识别还可以支持英文16k音频识别。

  • 音频格式支持:支持16bit、8k或16k的单声道中文音频识别;支持16bit 16k单声道英文音频识别;支持音频格式为wav、pcm、sppex、silk。

  • 音频数据长度支持:每个数据包的音频分片最大不能超过200k。

一句话识别

  • 对60秒之内的实时短音频流进行识别,可应用于运营活动,和各种语音交互场景,例如语音输入、语音短信、语音搜索、智能硬件和智能语音助手的语音指令等。

  • 语言和方言:语音识别服务目前支持中文普通话,和带有一定方言口音的普通话识别。

  • 音频格式支持:支持16bit、8k或16k的单声道中文音频识别;支持音频格式为wav、mp3。

  • 音频数据长度支持:若采用直接上传音频数据方式,整个数据包不能大于1 M,若采用上传音频url方式,整个音频时长不能大于60s。

录音文件识别

  • 对录音文件进行识别,适用于语音量大、对实时性要求低的场景,例如客服质检、视频字幕生成、音频节目字幕生成等。

  • 语言和方言:语音识别服务目前支持中文普通话,和带有一定方言口音的普通话识别。

  • 音频格式支持:支持16bit、8k或者16k的单声道或双声道的中文音频识别;支持音频格式为wav、pcm、mp3、silk、speex、amr。

  • 音频数据长度支持:若采用直接上传音频数据方式,则音频数据不能大于5M,若采用上传url方式,则音频时长不能大于1小时。

注意

如超出当天免费策略上限,您可以提交工单联系我们处理。

语音识别(Automatic Speech Recognition,ASR)为开发者提供语音转文字服务的最佳体验,开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型开发者需求,具备识别准确率高、接入便捷、性能稳定等特点。

产品功能

实时语音识别
对实时音频流进行识别,达到“边说边出文字”的效果,可应用于语音输入、电话机器人等实时音频流场景

一句话识别
对60秒之内的短音频文件进行识别,达到快速准确识别较短语音的效果,可应用于语音消息转写等场景;

录音文件识别
对录音文件进行识别,达到识别较长的非实时语音的效果,可用于字幕生成、录音资料转写等场景

海量数据积累
立足于腾讯庞大的社交数据平台,积累了数十万小时的语音标注数据,拥有丰富多样的语料库,为高识别率奠定数据基础。

算法业界领先
基于多种序列神经网络结构(LSTM、Attention Model、DeepCNN),采用 Multitask 训练方法,结合T/S方式,在通用以及垂直领域有业内领先的识别精度。

支持多平台设备
提供 REST API 和 SDK,支持智能硬件、移动应用、网站、桌面客户端和物联网等多种设备终端。

支持语种丰富
现阶段支持中文语音识别和英文语音识别,后续将陆续开放其他语种或方言的识别能力,包括粤语、维语、藏语、韩语等。

噪声环境识别佳
语音识别模型鲁棒性佳,识别精度高,抗噪声的干扰能力强,能够识别来自嘈杂环境的音频信息,不需要客户进行降噪处理。

海量内外部业务验证
经过微信、腾讯视频、王者荣耀等内部业务充分验证,也在大量互联网、金融、教育等领域的外部客户业务场景成功落地,日服务亿级用户,性能稳定。

语音输入法
智能语音输入,由实时语音识别实现,为用户节省输入时间、提升输入体验。

语音消息转写
将用户的语音信息转成文字信息,由一句话识别服务实现,提升用户阅读效率。

字幕生成
将直播和录播视频中的语音转换为文字,由录音文件识别服务实现,轻松便捷地生成字幕文件。

会议纪要
将会议、庭审、采访等场景的音频信息转换为文字,由实时语音识别服务实现,降低人工记录成本、提升效率。

电话质检
将坐席通话转成文字,由实语音识别服务或录音文件识别服务实现,全面覆盖质检内容、提升质检效率

www.ksyuwei.cn

www.ksyuwei.cn





www.ksyuwei.cnwww.ksyuwei.cnwww.ksyuwei.cnwww.ksyuwei.cnwww.ksyuwei.cnwww.ksyuwei.cnwww.ksyuwei.cnwww.ksyuwei.cnwww.ksyuwei.cnwww.ksyuwei.cn

www.ksyuwei.cn

语音识别接口的 HTTP 请求返回鉴权失败?

请用户对照参数表检查自己的参数是否正确上传。如果想快速接入,推荐使用官网提供的 SDK。

语音识别服务识别结果报错无效的 URL 地址?

用户提供的 URL 地址需要是公网的 URL,能被腾讯云访问。可使用腾讯云提供的 cos 服务存放音频并使用相关的 URL。也要请用户排查防火墙是否拦截,是否内网 IP,是否存放于其他服务提供商无法被腾讯云下载等问题。

语音识别调用接口服务的时报错"未注册的 AppId"?

用户未注册,用户需要按照语音识别入门开通语音识别服务方可使用服务。

不同使用场景对应的是语音识别哪种服务?

实时语音识别适用于有一定实时性要求的场景,例如语音输入、语音机器人、会议现场记录等场景;
一句话识别适用于对60秒之内的短音频文件进行识别的场景,例如语音短信、语音搜索等场景;
录音文件识别适用于语音时间较长、实时性要求低的场景,例如客服质检、视频字幕生成等场景。

录音两个人说话,且录音存储成单声道,识别结果是否把两人的对话分离开?

8K采样率普通话录音文件识别支持单通道双人对话的说话人分离。

支持远场的语音识别吗?

录音文件识别、一句话识别和实时语音识别不支持远场语音识别。

语音识别支持中英文混合场景和地方方言吗?

普通话引擎仅支持单词级别的中英文混合识别。
实时语音识别和录音文件识别支持中文普通话、英文和带有一定方言口音的中文普通话,后续将会支持粤语等方言;
一句话识别支持中文普通话、带有一定方言口音的中文普通话,后续将会支持英文、粤语等语言或方言。

语音识别如何接入?

语音识别目前支持 API 和 SDK 接入,推荐 SDK 接入,详情参见语音识别入门。

语音识别的支持的输入音频时长是多少?

一句话识别每次调用支持60S之内的音频;录音文件识别每次调用支持一小时之内的音频;实时语音每个数据包大小不超过200KB。

语音识别支持的什么样的音频属性?

语音识别服务的对于音频属性的详细规定请参见语音识别服务详细信息页。

一句话和录音文件识别的音频数据支持哪种传输方法和格式?

采用 HTTP 协议传输,post 方法,音频数据传输如下两种方式:1 音频数据使用base64编码后,随 HTTP body 传输;2 若采用 url 下载,body 中的数据可不填,在请求参数内填入音频 url。

语音识别怎么进行功能体验?

可以通过微信搜索“腾讯云 AI 语音”小程序,选择语音识别进行体验;语音控制台将上线功能体验模块,用户可以通过上传文件或者 URL 进行体验。

语音识别接口的 HTTP 请求返回鉴权失败?

请用户对照参数表检查自己的参数是否正确上传。如果想快速接入,推荐使用官网提供的 SDK。

语音识别服务识别结果报错无效的 URL 地址?

用户提供的 URL 地址需要是公网的 URL,能被腾讯云访问。可使用腾讯云提供的 cos 服务存放音频并使用相关的 URL。也要请用户排查防火墙是否拦截,是否内网 IP,是否存放于其他服务提供商无法被腾讯云下载等问题。

语音识别调用接口服务的时报错"未注册的 AppId"?

用户未注册,用户需要按照语音识别入门开通语音识别服务方可使用服务。

语音识别识别出的结果准确率低、相比原文差距大?

远离拾音器、明显噪声、严重口音等因素会影响语音识别准确率

实时语音识别是否对硬件有要求?

实时语音识别对硬件没有特别要求,只要能录到声音并按照支持的格式传输过来就可以。

如何查看音频格式和属性?

Windows 系统下:
可以下载相关软件查看和修改音频格式:Adobe Audition CS6。
Linux 或者 macOS 系统下:
用 file 命令查看,例如:file test.wav
结果:
www.ksyuwei.cn
此音频的采样率为8k,采样精度为16bit,声道为 mono,即单声道(双声道为 stereo)。


  • 名称: 语音识别ASR
  • 关键词: 语音识别,腾讯云