灵云人工智能论坛

 找回密码
 立即注册
搜索
查看: 4391|回复: 0

捷通华声清华合力攻关 灵云OCR技术实现国际领先 [复制链接]

Rank: 10Rank: 10Rank: 10

高级会员 最佳新人 活跃会员 热心会员 推广达人 宣传达人 灌水之王 突出贡献 论坛元老 卯兔 初级会员 爱心大使 QQ勋章 手机 微信 宣传大使

发表于 2016-11-24 13:44:26 |显示全部楼层
【每日科技网】

随着深度学习越来越多地被用于人工智能技术的研究。近期,捷通华声与清华科研团队应用机器学习算法和深度学习训练集群,实现灵云OCR技术重大突破。该技术颠覆了传统方法,使文字识别正确率实现跨越式提升,全面超越国内OCR厂商及代表国际水平的某俄罗斯公司,推动国内OCR技术达到国际水平。

  OCR即光学字符识别(Optical Character Recognition),是将印刷体字符识别为电子文本的一项技术。目前主流的OCR识别技术,先要对图像进行清晰度判断、版面分析、直方图均衡、灰度化、二值化、倾斜校正、字符切割等预处理,得到端正、清晰的字符图像;再用字符识别和语言模型,对文字进行识别;最后通过后处理,输出文本结果。

  由于这种方法过于依赖图像处理算法以便在不同场景下对图像进行适应性调整和处理,对纸张的摆放位置、拍照的光线环境、扫描仪的精度等有较高要求,很大程度上限制了文字识别正确率的提升。

  对此,清华实验室与捷通华声科研团队基于的机器学习算法和深度学习训练集群,在充分研究拍照、扫描图像的特性后,收集和整理了海量的图像数据,从文本的定位到识别,采用了一体化的End-to-end模型结构和训练方法,推出了灵云文本引擎iRead 7.0 Text——新一代灵云OCR技术。

  该技术的推出,让机器不再只能识别“清晰、端正的文字”,还能识别“倾斜、相对模糊的文字”,并且支持更多的字体。这不但省去了主流方法繁杂的预处理和后处理工作,将模型训练时间从以月为单位降低到几天,更是将OCR技术的字正确率提高到99.9%,行正确率(一行字全部识别正确)从80%提高到98%,实现跨越式进步。

  清华大学早在上世纪90年代就推出了代表行业水平的中文OCR技术,是国内最早从事中文OCR技术研究与应用的高校。清华OCR技术已广泛服务于各行业、各领域,为中文OCR技术的发展做出了重大贡献。

  此次清华大学与捷通华声科研团队的合作,再次展现了清华大学在OCR领域强大的科研实力,以及捷通华声十多年在OCR市场应用中的产业积累,是捷通华声与清华大学“灵云科技 源自清华”战略合作、“产学研”相结合的科研成果。

  灵云OCR 提供文档、证照、票据、名片等全方位文字识别服务

  OCR作为最早实用化的人工智能技术之一,已在产业中得到广泛应用。捷通华声灵云OCR技术经过多年的市场应用和技术积累,已推出文档识别、证照识别、票据识别、名片识别等全方位文字识别产品与服务,广泛服务于各行业:

  l 金融办公:实现海量银行业务凭单、统一对账单、托管资料等表单的批量识别,助力金融企业建立电子资料档案库;

  l 物流货运:物流货运单的批量识别,助力物流企业优化货运流程和管理供应链;

  l 海关边检&旅游:实现护照、港澳通行证、回乡证、台胞证、大陆证、户口簿、居住证等证照的精准快速识别,缩短旅客排队时间。

  l 金融开户:身份证、银行卡、名片自动识别,让银行、证券、保险的线下开户更快捷。

  l 移动警务:身份证、驾驶证、行驶证识别,让交警能更高效地录入司机信息。

  l 财务办公:发票、文档识别,打造OA办公系统。

  相比传统人工录入,OCR技术不但为企业节省了大量人工成本,提高了信息录入效率和准确度,还能助力企业建立可以即时搜索、便于管理和调用的电子资料档案库,为企业的发展提供强有力的数据服务。

  新一代灵云OCR技术即将上线灵云平台,面向广大个人开发者和企业开发商全面开放。捷通华声将继续巩固与清华大学“灵云科技 源自清华”的战略合作,专注全方位人工智能技术研究与产业化应用,为产业提供更为优质的技术与服务。


踩过的脚印

举报

您需要登录后才可以回帖 登录 | 立即注册

Archiver|任务|灵云 ( 京ICP证030095号 )

GMT+8, 2019-12-13 16:26 , Processed in 0.079571 second(s), 20 queries .

Powered by Discuz! X2

© 2001-2011 Comsenz Inc.

回顶部