注册通行证 用户名 密码
  • 文章投稿
  • 博客
  • 论坛
  • 设为首页
  • 加入收藏
jztop.com网络技术
  • 首页
  • | iT新闻
  • | 操作系统
  • | 组网建网
  • | 网络安全
  • | 程序开发
  • | 办公一族
  • | 工具软件
  • | 网页制作
  • | 多媒体制作
  • | 网吧技术
  • | 服务器
  • | 专题教程
Vista | 软件评测 | 系统备份 | 优化 | 进程 | 聊天 | 病毒 | Linux | 黑客 | 防火墙 | 数据库 | Web开发 | Java | Word | 游戏 | 32位开发 | 移动开发
当前位置:首页 > 工具软件 > 应用软件 > 图文处理 内容正文:用OCR软件进行扫描识别文本的技巧

用OCR软件进行扫描识别文本的技巧

发布时间:2008-06-16 12:02:33 来源: 网友评论 0 条

扫描仪的一个重要功能就是通过OCR软件(即文字识别软件)将扫描后的文字图像转换成文本格式的文件,使文字处理软件能够调用处理。这样可以大大提高文字录入速度,极大地提高工作效率。目前,文字识别软件主要有《尚书OCR》、《汉王OCR》和《紫光OCR》等几种。

不过,我们在进行文字识别时经常会遇到识别率低的问题,其原因除了被识别稿件有问题外,主要还是我们没有掌握好扫描及OCR识别软件的使用技巧。那么进行文字识别时有哪些技巧呢?

一、根据识别稿的质量进行处理

进行扫描识别时,在可能的情况下应尽量选择清晰度与洁净度都很高的识别稿,识别稿的清晰度与洁净度的不同会使扫描后的识别率有很大差距。对一般的印刷稿、打印稿等质量较好的文稿进行识别,只要掌握好方法与技巧,其识别率一般可达到98%以上。而对报纸、杂志等清晰度不佳的原稿进行识别,无论使用何种识别软件都难以达到很高的识别率。

1.对一些带有下划线、分隔线等符号的文本原稿,有些OCR软件是识别不出的,一般会出现乱码。如果必须扫描带有这些符号的原稿,一是要确保使用的识别软件能够识别这些符号。二是使用工具擦掉这些特殊符号,使识别软件能正确识别这些文字。

如果扫描后的文档中含有OCR软件不能识别的图像、图形和一些特殊符号,可以考虑使用“擦拭”工具将文档中的图像、图形和一些特殊符号擦除,同时将图像上一些杂点也一并去除。使图像中除了文字没有多余的东西,这可以大大提高识别率并减少识别后的修改工作。

2.在扫描识别报纸或纸张较薄的文稿时,扫描时稿件背面的文字通常会透过纸张造成错字或乱码,使识别率大大降低。在对这类原稿扫描时,我们可以在原稿的背面覆盖一张黑纸,在进行正式扫描时,适当增加扫描对比度或亮度,即可有效提高识别率。

3.对于一些图文混排的原稿,扫描成一幅图像进行全区识别会严重影响OCR软件的识别率。我们可以根据实际情况将扫描后的版面切分成多个区域后再识别,切分区域的原则是:将图形、图像排除在区域之外(图1),尽量把文字字体、字号一致的划在一个区域内,不要嫌这个过程烦琐而选用自动切分区域,手动选取扫描区域会有更好识别效果,还应注意各识别区域不能有交叉情况。

图1 版面切分

二、扫描识别稿的操作技巧

1.首先要保持工作环境的清洁,扫描仪的玻璃板以及若干个反光镜片及镜头,其中任何一部分脏污都会影响扫描文字图像的效果。因此,保持扫描仪的清洁是确保文字图像扫描质量及识别率较高的重要前提。

2.扫描仪在刚开启时,光源的稳定性较差,而且光源的色温也没有达到正常工作所需的色温,所以开始扫描以前最好先让扫描仪预热一段时间。

3.在放置扫描原稿时,把扫描的文字材料摆放在扫描起始线正中,可以最大限度地避免由于光学透镜导致的失真而影响识别率。

4.扫描后的文字图像经常会有一定角度的倾斜,出现这种情况必须在扫描后使用自动或手动旋转工具进行纠正,OCR软件一般都设有自动纠偏和手动纠偏工具。否则OCR识别软件会将水平笔画当作斜笔画处理,识别率会下降很多。如果扫描后的文字图像倾斜角度超过15°,倾斜校正会产生较大的失真和误差,从而严重影响识别率,这种情况建议摆正原稿重新扫描。

三、扫描参数的设置

扫描参数的设置主要包括分辨率的设置及亮度和对比度的设置。

1.一般来讲,分辨率越高识别率也就会越高。但这也不是绝对的,对于一些过大过粗的字体,设置过高的分辨率,识别率可能会降低,而且设置高分辨率后,扫描速度会大大降低。根据实际经验,1、2、3号字的文稿推荐使用200dpi,4、小4、5号字的文稿推荐使用300dpi,小5、6号字的文稿推荐使用400dpi,7、8号字的文稿推荐使用600dpi(图2)。

图2 选择分辨率

2.扫描时适当地调整好亮度和对比度值,对识别率的高低影响很大,在进行扫描亮度和对比度的设定时(图3),以扫描后的图像中文字的笔画较细、均匀,且没有明显断点为准。如果扫描后的文字图像存在黑点、黑斑或文字线条很粗很黑,分不清笔画,说明亮度值太小,应该增加亮度值再重新扫描。如果文字线条凹凸不平,有断线甚至图像中汉字轮廓严重残缺时,说明亮度值太大,应减小亮度后再重新扫描。如果要扫描质量比较差的文稿,比如报纸,扫描出的图像可能会出现大量的黑点,而且在字体的笔画上也会出现粘连现象,为获得较好的识别结果,必须仔细进行亮度和对比度值的调整,反复扫描多次才能获得比较理想的效果。

图3 扫描亮度和对比度的设定

四、识别后的处理工作

1.文字校正

文字校正是OCR识别工作中比较烦琐的一步。一般OCR软件对可能出现错误的文字,会显示出蓝色标记,请用户确认。但在没有提示出错的地方,也有可能出错。所以大家在校对时应该通读一遍,以提高文字录入的准确率。

2.识别后文本的保存

如果把识别后的文本简单复制粘贴到Word中保存处理,就需要去掉多余的硬回车,这样会非常麻烦。正确方法是:先将识别后的文本存盘,在存盘时设置为软回车就行了。对于《紫光OCR》,则需要在识别完成后,选择文件菜单下的导出命令,将存储类型选为TXT,段内回车字符选为无。注意:一定不要直接存盘,否则不能自动去掉文章的硬回车。《尚书OCR》、《汉王OCR》和《紫光OCR》都提供了段内去除硬回车的功能。

相关文章
    无相关信息
【评论】【收藏本文】【打印】【关闭】
上一篇文章:InterPhonic 文本至语音转换合成在线完成
下一篇文章:PhotoCap软件帮你修改照片尺寸
讨论区
查看
已有 0 位对此新闻感兴趣的网友发表了看法
匿名发表
注册通行证 登陆
图文阅读推荐
免费图像处理软件PhotoScape八大绝活
免费图像处理软件PhotoScape八大绝活
IntuImage:调整图片细节部分不失真
IntuImage:调整图片细节部分不失真
巧妙出击 SnagIT也做“图标挖掘机”
巧妙出击 SnagIT也做“图标挖掘机”
图像处理的黑马曝光 彩影2008抢先试用
图像处理的黑马曝光 彩影2008抢先试用
推荐阅讯
  • Apache HTTP Server V2.0.44下载列表
  • 加强版记事本软件——Memo
  • 远程管理IIS
  • Web站点崩溃的原因总结
  • Apache重写规则的常见应用
  • Linux防火墙上的Apache反向代理
  • IIS提供的服务
  • Apache HTTP Server for Windows V2.0.55下
  • 从命令提示符执行IIS中的管理任务
  • IIS技巧:网站服务器的搭建与配置
阅读排行
  • 1.外网用户如何访问内网FTP服务器
  • 2.架设家庭不断线的web服务器
  • 3.在Windows下安装Apache服务器端Web软件
  • 4.Windows 2003系统Web服务器配置方法
  • 5.双网卡宽带代理服务器的设置
  • 6.如何在一台服务器上实现多个Web站点
  • 7.1个IP实现多个网站
  • 8.玩转Windows XP家庭版之IIS
  • 9.IIS技巧:网站服务器的搭建与配置
  • 10.HTTP500内部服务器错误修正办法
专题教程
  • 大话G游 专题:手机病毒揭密
  • ARP攻击防范与解决方案 路由故障处理手册
  • Picasa中文版_Picasa教程 专题:清除流氓软件
  • Firefox专题 seo搜索引擎优化专区
  • 重装Windows必知的事情 装机之必备软件大行动
病毒专杀栏
  • 杀毒软件反被病毒杀 连"救命"都不能喊
  • 金山ARP防火墙
  • 还原卡神话破灭“机器狗”病毒来势汹汹
  • cctv经济半小时:你的手机现在安全吗?
  • 新挂马方式开始流行 ARP挂马称雄局域网
  • 木马和病毒清除的通用解法
  • IP地址不再冲突 查找ARP攻击者元凶
  • 教你几招识别和防御Web网页木马
  • 分析:封杀BT只是暂时的止痛药
  • QQ爆危险漏洞,“QQ游戏邀请大盗”邀请你玩病
关于我们 | 诚聘英才 | 联系我们 | 版权声明 | 网站大事 | 网站地图 | 意见建议
CopyRight 2005-2007 Jztop.Com 版权所有 未经许可 请勿转载