树莓派开源语音控制助理之Jasper介绍

作者 donggua

2017-10-25 02.开源硬件, 04.智联网 无评论 脚印:

在苹果(Apple)自带的Siri,微软(Microsoft)发布Windows Phone 8.1发布的Cortana个人助理重压之下,为了在自己的应用中添加智能的软件控制。开发者只能自己重新开发。因此,Jasper的诞生给了有此想法的绝大多数攻城狮希望,它是一款开源软件,每个人都能根据自己的口味设计自己想要的语音中控,同时可以自由组合语音识别和语音合成。

                     

Jasper开源语音控制助理是一款由两位普利斯顿大学(Princeton University)的两名本科生,查理马什(Charlie Marsh)和希波罗萨哈(Shubhro Saha)开发的开源软件。由于Jasper目前提供的功能有社交媒体的消息提醒,新邮件和短信提醒,播放音乐,告知天气等功能。而这些需要通过互联网获取,因此,在使用Jasper时需要网络支持,甚至需要墙外的风景。。。在此不太推荐,后续会介绍改良后的国内可用的Jasper版本。同时联合树莓派,可以让Jasper控制任何东西。Jasper处于一直运行的状态,只要一声“Jasper”呼叫,即可唤醒应答。

先来看看两位创始人的靓照,也不知哪位是父亲,哪位是母亲,呵呵呵。。。

更准确的说,Jasper是一款语音控制平台软件,因为它是基于第三方的语音识别(Speech to Text)和语音合成(Text to Speech)软件的语音控制软件。下面简单介绍一下,Jasper支持的语音识别和语音合成引擎。

目前官方支持的语音识别有:

  1. Pocketsphinx:是卡耐基-梅隆大学的CMU Sphinx项目中的一个开源的语音译码器。它的速度非常快,适合设计用于嵌入式系统。不幸的是,Pocketsphinx识别率不是很好的。但优势在于识别可以离线进行,即不需要网络连接。
  2. Google STT:Google开放的STT API。
  3. AT&T STT :AT&T开放的STT API。
  4. Wit.ai STT :Wit.ai开发的STT API。需要基于wit.ai的云服务。
  5. Julius :高性能开源语音识别引擎。但是需要进行一个复杂的语音识别训练。

由此可见,适合我们国内用户的也就剩下Pocketsphinx和Julius两款识别率相对较低的语音识别引擎。。。

官方支持的语音合成有:

  1. eSpeak:是一个紧凑的开源语音合成器。语音合成是离线完成的,但是大多数的声音听起来很“机器人”。
  2. Festival:是一个开源的语音合成器,由爱丁堡大学的语音识别技术研究中心研究开发。像eSpeak,离线也能合成语音。
  3. Flite:是一个轻量级和快速合成引擎,主要是为小型嵌入式计算机而设计的。它综合演讲离线,所以不需要网络连接。
  4. SVOX Pico TTS:是一个使用Android 1.6“Donut”的语音合成引擎。这是一个开源的小型应用程序和离线同样适用。相对eSpeak和Festival而言,质量是相当不错。
  5. Google TTS:语音合成本身是在谷歌的服务器上完成的,所以需要网络连接。
  6. Ivona TTS:是使用亚马逊的Ivona演语音云服务,这是用于Kindle Fire。语音合成是网上完成的,因此需要网络连接和亚马逊访问权。
  7. MaryTTS:是用Java编写的一个开源的TTS系统。您需要设置自己的MaryTTS服务器和配置Jasper。因为服务器可以驻留在同一台机器上运行的Jasper,你不需要上网。
  8. Max OS X TTS:只有工作如果你在Mac上运行Jasper。然后在MacOS中使用say命令来合成语音。

对于语音合成而言,不涉及识别率的问题,因此可以根据个人需要选择,当然那种被墙了的,或者需要你去买一台Mac的还是靠边站吧。。。

查理和希波罗开发“Jasper”开源语音识别和控制应用的同时,还附带其“极其简单的”API(应用程序接口)以及基于B型树莓派(Raspberry Pi)的开发套件。如果你有一代的树莓派,可以直接下载集成了Jasper的镜像进行测试使用。

你可以对着Jasper说出常用指令,他们在自己的文档中列举了一些例子。

跟Jasper对话的最常见方式是依照下面的顺序进行:

你:“Jasper”

Jasper:高蜂鸣声

你:讲出指令

Jasper:低蜂鸣声

Jasper:讲出回答

在默认情况下,我们已经提供了以下模块来展示Jasper的能力:

时间:“现在几点?”

天气:“天气怎样?……明天天气如何?”

新闻:“有什么新闻?”

Gmail:“我有邮件吗?”

Hacker News:“Hacker News有什么新闻?”

Facebook信息:“Facebook上有信息吗?”

生日:“今天谁生日?”

笑话:“给我讲一个敲门笑话。”

人生:“人生的意义是什么?

软件架构如下:

Jasper Client Architecture

总结评论:

软件结构清晰明了,开源且具有定制化,但是软件涉及的部分开源软件停止更新或者查找不到,有可能导致软件安装无法完成。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注