优势

领先的准确率

运用 Google 先进的深度学习神经网络算法来进行自动语音识别 (ASR)。

简单的模型定制

Speech-to-Text 用户界面支持对自定义资源进行实验、创建和管理。

灵活部署

在需要的位置部署语音识别功能，无论是在云端（使用 API）还是在本地（使用Speech-to-Text On-Prem）。

主要特性

语音自适应

通过提供提示来定制语音识别功能，以转录特定领域的术语和生僻字词，同时提高特定字词或短语的转录准确率。使用类别，自动将语音中的数字转换为地址、年份、货币或其他内容。

针对特定领域的模型

从一系列经过培训的型号中进行选择，用于语音控制、电话和视频转录，这些型号针对特定领域的质量要求进行了优化。例如，我们的增强型电话通话模型针对源自电话的音频进行了调整，例如以8khz采样率录制的电话通话。

轻松比较品质

使用我们简单易用的界面，对您的语音音频进行实验。尝试使用不同的配置来优化质量和准确率。

Speech-to-Text On-Prem

完全控制你的基础设施和受保护的语音数据，同时在你自己的私人数据中心利用谷歌的语音识别技术。

扩展语言支持

自推出 Speech-to-Text 以来，我们一直在努力为更多语种带来高质量的语音识别。今天，我们将支持的语言从 64 种扩展到 71 种（总语言环境为 120 种到 127 种），新增了七种语言：缅甸语、爱沙尼亚语、乌兹别克语、旁遮普语、阿尔巴尼亚语、马其顿语和蒙古语。

Sourcenext 是便携式语音翻译器 Pocketalk 的制造商，是利用 Google Cloud Speech-to-Text 全面语言支持的组织之一。

Sourcenext Corporation 技术战略运营官 Hajime Kawatake 表示：“Google Cloud Speech-to-Text 的广泛语言功能使我们的产品 Pocketalk 成为可能。“让我们的客户能够在世界任何地方接收到高度准确和可靠的语音到语音翻译，所提供的语言的绝对广度提高了产品质量。”

增强型电话模型

Google 推出了针对美式英语的增强型电话模式，为来自电话和视频通话的原始音频数据不足的客户提供最高质量的转录。在测试中，它在电话方面的表现比我们的基本模型好 62%，现在它正在帮助 Contact Center AI 改变客户和座席的呼叫中心体验。今天，Speech-to-Text 发布了对三种新语言环境的支持：英语、俄语和美式西班牙语。

这些功能的首批用户之一是 Voximplant，这是一个在俄罗斯拥有众多企业客户的云通信平台，它立即意识到新电话模型的卓越准确性。 

Voximplant 首席执行官 Alexey Aylarov 表示：“我们与 Google Cloud 合作是因为我们希望利用 Google 的 AI 技术创新我们的语音平台。“由于我们经常从低带宽的电话网络中接收音频，因此增强型电话模型已经帮助改变了游戏规则，提高了人对人和人对虚拟座席对话的准确性。我们很高兴看到 Google Cloud 致力于为更多用户和区域提供高质量模型。”