11月22日,在语音开放平台上线三周年之际,百度宣布向公众开放四项全新的语音技术的接口:情感合成、远场方案、唤醒二期技术和长语音方案。百度介绍,开放这四项新技术旨在解决用户在使用语音交互场合时面临的一些普遍而关键的问题。值得注意的是,在百度此次开放的语音接口背后,是公司已布局多时的人工智能技术。业内普遍认为,百度此举主要是为了继续推进公司的人工智能业务落地,进一步巩固在这一领域技术和市场优势。
百度公司首席科学家吴恩达介绍了这四项深具革命性的语音技术,即情感合成、远场方案、唤醒二期技术和长语音方案,并宣布即日起百度将这几项技术免费开放给用户和开发者共享。
“这些技术有很大的潜力,去彻底改变人机交互的效率和办法。未来语音技术在很多应用场景有很好的机会,将为人机交互带来巨大的改变。”吴恩达表示。
吴恩达还认为,语音技术将带给用户更多可能性:“我们不再需要用手指去打开一个App,直接说一声就可以听到想听的音乐;回到家喊一声就能打开家里的灯,而不需用手去按开关。”
事实上,上述技术已经在现实中得以应用。例如,使用百度语音远场方案技术的“小度机器人人机语音交互点餐”已在上海肯德基旗舰店投入应用,可远距离随时应答点餐。长语音实时转写的技术也已经在诸多内容记录、智能客服、视频转写等应用场景表现出巨大的想象空间。
“这些技术有很大的潜力去彻底改变人机交互的效率和办法。未来语音技术在很多应用场景有很好的机会,将为人机交互带来巨大的改变。”吴恩达表示,语音是最自然而方便的交互方式,百度希望将这四项语音技术开放给公众使用,以帮助更多领域的创新和交互。
自从2013年10月上线以来,百度语音开放平台每日在线语音合成请求达2亿,在线语音识别要求从2013年的500万上升到今天的1亿4千万,利用百度语音开放平台的开发者超过14万。目前,百度语音开放平台的合作伙伴已涵盖多个领域和场景,包括手机、家居、汽车、通信、旅行、阅读等。
目前,百度语音识别准确率已高达97%。今年2月,百度深度语音识别系统Deep Speech 2入选MIT 2016十大突破技术。包括语音技术在内的百度大脑,入选2016第三届乌镇世界互联网大会15大领先科技成果,成为国内唯一入选的综合型人工智能技术。而目前百度使用的语音技术背后,均有上述人工智能技术进行支持。
对此,业内分析认为,语音作为最为自然的交互方式,有着巨大的使用需求。更为重要的是,语音不仅仅是交互方式,还承载这用户具体的使用需求,因此有望成为未来互联网的新入口。百度此前已在人工智能领域布局多年,通过语音应用能够将自己的人工智能技术和服务,快速带给用户,并能够以此为突破口,不断推进公司人工智能业务的落地,并进一步巩固在这一领域的技术和市场优势。(完)