科大讯飞Interphonic 5.0语音合成系统 ISO xx版
简介:
[/color][/align]
以下为这个软件的情况:
Interphonic 5.0语音合成系统
关 键 词:语音合成系统 多语种语音合成
所属年份:2006
成果类型:应用技术
所处阶段:成果
体现形式:知识产权
形式:项目
合作方式:成果
完成单位:安徽科大讯飞信息科技股份有限公司
成果摘要:
该系统以先进的大语料库和语音韵律描述体系为基础,提供面向任意文本、任意篇章的连续语音合成功能,合成音质可媲美真人发音,够提供普通话、广东话、英语等上十个语种,包含业界{lx1}的普通话与英语同音混读、广东话与英语同音混读,并已经受了行业用户大规模大压力的应用考验。应用于小型、大型以及电信级的声讯服务平台企业呼叫中心、UMS和Voice Portal等新兴语音服务。该系统具有高质量的语音合成效果;全面完善的功能特性;细致周到的优化方案。该成果将得到广泛应用。
以下为中科讯飞对这个软件的说明摘自中科大讯飞官方网页)
点击 也能进入中科大讯飞官网.
随着2006年科大讯飞与NUANCE语音技术解决方案全国5个城市的巡展在5月的xx谢幕。6月初,科大讯飞的新一代重量级语音技术产品正式登上舞台,为客户带来更多更好的选择,以及更加新鲜的语音技术体验。
目前伴随着新业务的不断涌现,企业,运营商或是系统集成商都越来越多的关注语音技术的发展及应用,以期望将先进的语音技术作为新一代呼叫中心和电信增值业务的核心动力引擎,打造全新的自助语音服务,并使其应用在各行各业创造源源不断的价值,带来便捷,个性的应用效应。
随着越来越多的客户认识到蓬勃发展的语音应用所带来的显著价值,{lx1}的语音合成技术{ldz}科大讯飞与全球语音识别巨头Nuance公司强强联合,基于在核心技术研发上的不断探索以及和应用每年都会为客户带来不断升级的新一代技术产品。此次发布的新一代语音合成系统——InterPhonic5.0的推出标志着科大讯飞的优质语音服务又迈上了一个新台阶。合成效果超过一般自然人发音,在多语种、多音色方面又迈出了重大步伐,可以充分满足用户的个性化需求。粤语效果更趋自然,数字、数值发音更加清晰饱满,短语合成更加流畅,资源管理更加方便,xx可以适应各种类型的专业化要求。系统结构更加灵活开放,稳定性和可用性经受了众多大规模实际应用的检验,能够确保7×24小时不间断自动化语音服务。我们相信该产品一定会赢得更多新老客户的支持和认可。我们期待在语音应用的崭新时代与您分享技术进步的丰硕成果。
新一代的语音合成系统InterPhonic5.0是目前业界{zyx}的TTS产品,相比于之前的产品有多方面的改进和提升:
多语种
多语种的语音合成解决方案是InterPhonic系列语音合成系统的重要目标,目前InterPhonic系列语音合成系统已经能够支持中文普通话、粤语和英文三个语种,并在纯中文、中英文混读、粤英文混读方面达到了很好的效果。InterPhonic 5.0系统在此基础上着重改进了:
(1)纯英文文本的合成效果——Sherri音库。该音库选用以英语为母语的发音人,其发音为标准美国英语,朗读风格流畅自然。
(2)新增台湾普通话合成效果——小琳音库。该音库发音为带有台湾地区方言特色的国语,音色甜美柔和。
上述新增音库均沿用了科大讯飞先进的语料收集算法,大幅度扩展了英文语料的数量,保证了语料的覆盖面,并且针对英文的特点加入了大量优化规则,可以很好地适应当前各种应用语境。
多音色
InterPhonic 5.0系统增加了三种全新的音库——小倩、小琳和Sherri音库。新音库的制作采用了全新的录音语料,并增加了数字、娱乐、体育等其他领域的语料文本。新音库将提供给用户听感上最直接的效果改进。
至此,本系统可以提供小静、小燕、小美、小宇、小倩、小琳和Sherri七个不同发音人录制的音库,能够支持中文、中英混读、英文、粤英混读和台湾国语,每种音库分别提供6K、8K、11K和16K四种不同采样率的音库安装包。在合成过程中,如果安装了多个音库,用户可以根据需要实时切换并测听不同音色、不同采样率的合成效果。
粤语口语化
粤语是一种口语风格很强的语种,为了更好的提高粤语的合成效果,InterPhonic 5.0除了进一步优化口语化规则之外,还在现有小美粤语库的基础上补充了一部分口语化关闭的语料,并提供将口语化关闭的功能,这些改进使得粤语合成效果更符合实际应用的需要。
预录音改进
InterPhonic 3.0语音合成系统实现了预录音的统一管理和处理的功能。用户可以将预录音添加到系统中作为资源,并调整预录音的语音特征,使预录音和合成语音衔接更加自然。
InterPhonic 4.0在InterPhonic 3.0可设置预录音属性的基础上,增加了匹配条件功能和批处理功能。
InterPhonic5.0用预录音智能匹配的方法,{zd0}限度地匹配提示音;用合成模板的方法,改进定制领域合成效果,简化定制流程,加快定制速度。这些改进使得预录音的使用更自然、更灵活,满足更广泛的应用需求。
数字短语改进
针对主流应用环境的普遍需求,科大讯飞广泛收集实际应用的语料,并进行细致分析和专业的优化,InterPhonic 5.0在数字数值、姓名短语等最常见应用下效果提升显著,合成效果更加清晰准确、节奏感更强。
系统版本增加
InterPhonic5.0语音合成系统提供了简体中文、繁体中文和英文三种版本,每个版本都配备了相应的安装包,工具界面以及文档。
====软件下载页面===
下载:右键迅雷下载
下载:点击下载必须.rar
==================================================额外介绍================================================
安装步骤:
以下是我的安装步骤。经实践,确实可用。
下载(1)InterPhonic5.0运行库.iso (2)演示版2M文本限制xx.rar(3)从中选择至少一个语音库:若要中文语音,从小燕(女声)、小宇(男声)或小倩(女声)中选一个(他们念的英文是正常人无法忍受的)。我下载了小宇,虽然不如小燕好,但是体积小。Sherri的英文语音很差,建议用别的软件读英文。
安装步骤:
1. InterPhonic5.0运行库.iso 文件用WinRAR解开成为文件夹。(应该也能用虚拟光驱(如Daemon tools, Alcohol)加载)。
2. 安装InterPhonic5.0运行库:双击InterPhonic5.0运行库 > Runtime Demo文件夹中的英文Runtime(Demo).exe或中文界面Runtime(Demo)_Chinese (PRC).msi(我选英语界面)。如果C盘空间非常有限,可以将其安装在非系统分区,如E:\download\iflytek5下。
3. 安装语音库:如双击小宇文件夹里的setup.exe。自动安装至E:\download\iflytek5下的Resource文件夹里。
4. 安装工具包。点击ToolKit文件夹中的英文ToolKit.exe或中文界面ToolKit_Chinese (PRC).msi(我选英语界面)。可以将其安装在非系统分区,如E:\download\iflytek5\下。
5. 这时要求绑定运行库。先以xx版iFlyTTSGUI.exe和ttsknl.dll文件来替换安装文件夹iflytek5\bin\里的原有文件;然后绑定这个替换过的ttsknl.dll。
6. 至少占用硬盘空间2.6 GB(如果安装小宇语音的话)。
文语通5.0的安装步骤(简短说明):就是三步骤,{dy}步安装运行库, 第二步是把xx的两个文件复盖掉安装文件夹里的两个文件, 第三步就是安装语音库, 你要哪个就安装哪一个,全部安装也可以但文件比较大!祝你好运!
******************************************************************
按照上述方法安装后,就可以正常使用了。
******************************************************************
以下为高级应用技巧,供参考。
将文语通2.0中IReader.exe和Skins目录一起复制到\InterPhonic 5.0\bin中,就可以使用文语通的界面听文章了
★★★
导出InterPhonic5.0合成的语音文件,最简单的办法就是在朗读的同时,直接使用“Snooper v1.37.1”录音软件。朗读、录制同时进行,无需转换文件,直接生成高质量MP3音频文件,速度快、简单直接,省了很多麻烦。
Snooper是声音录制软件,使用先进快速的mp3技术,录制一小时只需要不到4mb的空间,还可以自动通过电子邮件来发送完成的录音,功能繁多。(有了Snooper声音录制软件,你甚至可以用内录的方式,录制经电脑声卡播放出来的任何声音,包括网上试听的歌曲。)
具体操作方法:(InterPhonic5.0 + Snooper声音录制软件)
1、打开Snooper软件后,依次点击Help→Register,填写注册信息;
2、依次点击File→Options,再点击“SET”按钮,设定音频文件的保存路径;
3、在程序主页面点选“Normal”,再点选红色的录制按钮开始录制;
4、使用InterPhonic5.0朗读文本(可同时播放电脑中的任何背景音乐);
5、朗读完毕,点击Snooper软件方形停止按钮;
6、到前面设定的音频文件保存路径查看录音效果。
如果只需要合成少量文字的语音,可以直接到官方网站,使用“InterPhonic 6.0在线演示系统 + Snooper声音录制软件”的方法,效果会更好。
科大讯飞InterPhonic 6.0在线演示系统官方网址http://www.iflytek.com/TtsDemo/interPhonicShow.aspx ()
科大讯飞ViViVoice 2.0在线演示系统官方网址http://www.iflytek.com/TtsDemo/viviVoiceShow.aspx ()
Snooper v1.37.1 (1.58MB) 官方下载地址:
http://www.snooper.se/setup.exe ()
注册信息:
Email: Team@ARN.com
Serial: 00210985CEB9
★★★
如果用上述方法录不到声音,多数是由于你的笔记本不支持内录。(声音控制属性的选项中只提供了“麦克风”一个选项。)
这是由于声卡芯片厂商迫于RIAA(Recording Industry Association ofAmerica,美国唱片工业联合会)的压力,及维护音乐版权防止内录的需要,在新推出的声卡上对音频模块的功能做了限制,无法直接实现混音和内录的功能。
声卡无混音,无法内录的解决方案:
用Virtual Audio Cable 4.09虚拟声卡软件能够解决这个问题。
推荐软件:Virtual Audio Cable 4.09 (600Kb)
下载地址http://7.shdx1.crsky.com/200806/VirtualAudioCable-v4.09.rar ()
简介:
Virtual Audio Cable是一款在Windows之下采用WDM驱动架构进行音频讯号流传送的的虚拟仿真接口,透过它可以在不同的应用程序间指定传送音频讯号流,因此名为”Virtual Cables”(虚拟串线),此虚拟接口的{zd0}优点节省硬件成本,其传的讯号都是数字,所以不会有讯号污染或衰减的问题。
操作方法:
1、安装Virtual Audio Cable 4.09后,用鼠标右键点击屏幕右下角系统托盘中的小喇叭,再点“调整音频属性”,并按图1、图2设置。
2、点击屏幕左下角“开始→所有程序→附件→娱乐→录音机”,再点“编辑→音频属性”,并按图3、图4设置。然后关闭录音机。(是有点怪,但这样做是有效的。)
3、打开声音录制软件Snooper v1.37.1,点击菜单栏File→Options,按图5设置后开始录制。
4、如果录制时,需监听声音效果,打开Audio Repeater(开始→所有程序→Virtual Audio Cable→Audio Repeater),并按图6设置。
另,有时录不到声音,是静音设置的问题。右击小喇叭“打开音量控制→选项→属性→对应的混音器→确定”,查看是否勾选了静音,音量是否合适。
★★★
如果你还想进一步提高合成的朗读音质,在期待InterPhonic 6.0发布的同时,也可以着手改善声卡的播放效果。用软件来改善无疑成本是{zd1}的,这对于大多数集成声卡笔记本来说尤其有效。
推荐SRS Audio Sandbox (3.80MB,占用内存极小,约800K。)
SRS Audio Sandbox由U.S.A SRS Labs公司根据人类听觉系统的动力学(Dynamics of Human Hearing System)原理及心理声学(Psychoacoustics)而研究出来的专利音响xx改善技术。借助SRS Audio Sandbox,可以为集成声卡增加许多令人叹为观止的音效控制功能。实际上不论采用何种声卡,任何媒体播放程序,这款软件都能够为你的PC提供3D音频效果。
SRS Audio Sandbox v1.9.0.4 汉化版-{zj2}音频增强软件
下载地址:http://w1.01zzz.com.cn/20080115/ha_SRSAudioSandbox.rar ()
SRS注册xx方法:
1、先将Produce ID(注册ID)复制到注册机的Produce ID中,将得到Registration No(注册码)和Manual Activation Code(手动xx代码)。
2、在软件的xx页面,填入Registration No(注册码),xx选择“手动xx”,填入Manual Activation Code(手动xx代码),再点击xx按钮即可完成xx。
资源收集于网络仅供参考!谢谢!