灵云人工智能论坛

 找回密码
 立即注册
搜索
查看: 6190|回复: 2

百度技术沙龙回顾——语音技术的发展与应用 [复制链接]

shake 非 VIP 会员 

Rank: 10Rank: 10Rank: 10

最佳新人 活跃会员 热心会员 推广达人 宣传达人 灌水之王 突出贡献 优秀版主 荣誉管理 论坛元老

发表于 2013-8-20 09:31:36 |显示全部楼层
百度技术沙龙是由百度主办的线下技术交流活动,每月一期,每期由1个话题,2场演讲以及Open Space开放讨论环节组成。旨在为中高端技术人员提供一个自由的技术交流和分享的平台。
每期沙龙会邀请1名百度讲师分享百度在特定技术领域的成果及实践经验,同时还会邀请1名优秀的互联网公司或企业技术负责人对同一话题进行分享。活动主要面向开发者、技术负责人、项目经理、架构师等IT技术人员。口号是:畅想•交流•争鸣•聚会。

沙龙也有以智能人机交互技术为主题的活动,我转一期语音技术主题活动的回顾,和大家分享一下。

在3月16日的第36期百度技术沙龙活动上,百度多媒体部门的语音技术研发工作的负责人贾磊和IBM中国研究院信息和用户技术(IUT)部的高级经理秦勇分享了在语音技术的的经验与实践,话题涉及“语音技术的发展与应用”,以及“利用数据做聪明的决定”等。

主题一:语音技术的发展与应用
百度多媒体部门的语音技术研发工作的负责人贾磊首先结合百度通用语音识别服务介绍了在互联网下的语音识别的技术特色:
  • 网络化的识别构架
  • 海量语言模型训练玉莲和语音层信息的快速更新
  • 海量的来自各种平台的语音特征
  • 庞大的计算资源和服务平台
目前百度使用一套网络架构支持包括掌上百度、百度搜索、Ting!等多样化的产品,所有的产品通过统一的接入接口经过解码器由垂直领域模型进行解析,语音通过使用类语言模型、Grammer模型、Ngram模型和深度神经网络模型,进行一遍解码,进行文字结果识别、指令内容解析。
然后他对声学建模和语音识别中的深度神经网络进行了介绍,主要针对传统SDG训练等的不足指出深度神经网络在语音识别方面的优势:
  • 在1000小时数据的训练上,相对于mpe和fmpe的区分度系统而言,实现了相对误识别率的降低超过20%。
  • 训练后的DNN网络最终是稀疏的,经过优化后,可以适应CPU的线上服务要求。最后的概率计算打分在12核12线的条下满足时时解码要求。
  • 有希望克服了SGD缓慢训练的问题,使用异步混乱梯度法或者是基于二阶优化信息的优化算法,有希望实现了DNN的并行海量数据训练,解决了DNN训练时间过长的难题。
  • DNN在百度已经取代了GMM!

虽然深度神经网络作为一种强力的模式识别分类工具,广泛成功的应用于语音、图像等多媒体领域。而在文本分类领域,其应用并未获得压倒性的优势。他对这个问题践行了简单的解释。
最后他提到了Deep Brain的构想,希望能够通过这一个技术平台的搭建彻底解决DNN训练练的时间过长的技术瓶颈和网络结构和权重共同学习问题。

主题二:利用数据做聪明的决定
IBM中国研究院信息和用户技术(IUT)部的高级经理秦勇第二个为大家分享,他主要围绕如何通过数据来进行决策支持,主要涉及四个方面的内容:语音翻译、社交网络分析、深度问答和图像分析。
秦勇首先回顾了IBM的语音识别技术历史,IBM自1961年进行语音技术研究以来,一直在相关技术领域处于领先地位,IBM的语音识别解决方案是将内容通过iTrans转化成文本,通过不同的分析平台根据其用途进行解析,他对iTrans的架构进行了讲解。
在随后谈到社交网络分析时,他引用了这样一句话:
网络的社会化不会朝生暮死,也不回昙花一现。网络的社会化将逐渐的影响到每个人,每家公司,每个国家,深入到世界的各个角落。
IBM目前针对公共事业、金融投资、消费品等领域进行针对性的社会化分析,通过面向领域的情感分析和观点总结能够迅速了解到相关领域的社会化网络现状。
对于深度问答,IBM最显而易见的成果是Watson,当然,这只是背后庞杂技术的具体展示,Watson的实现涉及了语料分析、证据索引、假设推断以及决策制定等复杂的理论技术支持。
最后,他谈到了视觉分析,用户能够通过元数据处理以后的数据挖掘,在不同层面上对处理后的结果进行可视化的展示,在内容管理、健康管理、智慧地球等领域都能看到其运用场景。

Open Space(开放式讨论环节)
为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了Open Space(开放式讨论)环节。
在Open Space的总结环节,几位话题小组长分别对讨论的内容进行了总结。
贾磊:今天和大家分享了百度的语音技术现状,同时也和不同行业的朋友对于语音识别的未来有了一次深入交流,对我的启发也很大;
秦勇:我们看到了Siri等语音技术正在改变大家的交互方式,因此谈到了语音在未来的下一个热点,如呼叫中心、多媒体内容管理等,还有就是大家也谈到了IBM Watson的未来;
郑鑫:我们讨论了语音技术在银行业的应用,同时还讨论了语音导航、客服来电语音分析等,也获得了很多灵感;
董鑫:我们组主要围绕语音合成技术的应用进行讨论,包括语音合成在未来将会扮演的角色、目前的一些语音合成技术现状等;

会后,一些参会者也通过新浪微博分享了他们的参会感受:
Pan小月:正在聊语音识别的话题,我一直在想把语音识别技术应用到@下厨房 里,可结合的点很多,不光是菜谱步骤"下一步"这么简单(其实我们已经做过语音搜索了,可做的还有许多)。还有豆瓣电台,对于大量把豆瓣电台当背景音乐的人来说,能用语音控制会更实用吧。
double_刘佳:下午去参加百度技术沙龙,太火爆了,比场面更火的还是语音识别,我这门外汗是开眼界了,之前的好些想法IBM都搞出模型了,只是IBM没提供给互联网用户使用:iTrans视频提取文本做内容搜索,播放时可选择包含关键词的时间点;从电视台广播台的多媒体内容中抽出文本;男女声识别;个性化发声,好多好多。
Yang-Hsiao-Tung:百度「技术沙龙」真是不错,可以为国内IT行业塑造一种时尚文化。
Yourtion: iTranS果然很厉害~ 对于音频与视频中的语音进行识别,然后可以使用文字对其内容进行搜索,还能根据关键词打标签。
有假熊出没:IBM的演讲更大程度上是一些idea,一种别样的感受
踩过的脚印

举报

mage 非 VIP 会员 

Rank: 4

发表于 2013-8-20 14:19:39 |显示全部楼层
今年的语音识别的热度是几年来最高,可以和今年夏天的气温相比

Rank: 4

发表于 2013-8-22 22:00:01 |显示全部楼层
希望今后灵云论坛也可以产生特色,并举办学术、产业、开发者更加交融的论坛
您需要登录后才可以回帖 登录 | 立即注册

Archiver|任务|灵云 ( 京ICP证030095号 )

GMT+8, 2020-11-28 09:16 , Processed in 0.078789 second(s), 22 queries .

Powered by Discuz! X2

© 2001-2011 Comsenz Inc.

回顶部