中国拿破仑论坛

 找回密码
 入伍
新兵指南:让新兵更快熟悉论坛转载文章请注明作者/译者及出处@napolun.com邮箱自助申请
近卫军名将 - 赤胆忠心的“圣贤”德鲁奥 电影《滑铁卢》DVD-5一张钱老神作 THE CAMPAIGNS OF NAPOLEON
拿破仑所著小说《克利松与欧仁妮》波兰军团的创始者——东布罗夫斯基 路易斯-皮雷•蒙布伦和他的骑兵生涯
查看: 8029|回复: 5

[教程] 【原创】地球上最简易的OCR教程

[复制链接]
发表于 2011-6-22 12:18:15 | 显示全部楼层 |阅读模式
本帖最后由 高守业 于 2011-6-23 10:17 编辑

OCR系统组件.rar 115下载地址(by守业)
http://u.115.com/file/bhbol0p5

地球上最简易的OCR教程

首先我要声明。我把OCR和文字校对分开了。


首先要下载工具包“OCR系统组件”。

【第一步 确保OFFICE 2007功能完全】

我们在OCR之前,首先要确定自己安装了OFFICE 2007,在控制面板/添加或删除程序,选择office2007/工具,将其展开,选择Microsoft Office Docment Imaging,展开,三项一起“从本机运行”。

这样我们就安装了Microsoft Office Document Imaging,也就是MODI。

然后,找到Office 2007 OCR补丁,把文件夹里的文件按照文件夹内说明覆盖到指定位置即可。


【第二步 确认文本源格式,开始OCR】

如果你的文本是PDG格式的,首先运行Pdg2Pic(记得运行前进“参数设置”,JPEG图像质量要调整为100%),默认得到tiff格式图像(记得事先设立保存位置)。

可是,这种tiff不是单色的,TextForeve不支持。运行ComicEnhancerPro,将这些tiff图片批量全部替换为单色tiff图片(只需要选择“保存为tiff”就可以了)。

如果你的文本是PDF,那么就需要运行Image Extraction Wizard,将PDF先默认转换成jpg图片,再运行ComicEnhancerPro将这些jpg图片全部替换为tiff图片。

运行TextForever,选择OCR选项卡,然后点“开始OCR”就可以了。


【第三步 为混乱的OCR文本排版】

运行Gidot Typesetter,记得勾选“删除非段落换行”,然后我们点击排版就可以实现一键排版了。

OCR到此结束,就这么简单。

接下来的是文字校对,需要我们对着tiff图像逐字识别纠错。

如果你对自己没信心,请先另外下载黑马校对软件校对一遍全书文字,然后再自己细细校对。

记住,300DPI的图片才能确保文字识别率高一些。好了,不多说了,祝OCR人员们成功。

评分

参与人数 1军饷 +50 贡献 +3 收起 理由
高守业 + 50 + 3 感谢分享教程!

查看全部评分

回复

使用道具 举报

 楼主| 发表于 2011-6-22 12:23:14 | 显示全部楼层
爱问似乎不审核zip压缩包,没有反应……
回复 支持 反对

使用道具 举报

发表于 2011-6-23 10:15:34 | 显示全部楼层
补充OCR系统组件.rar 115下载地址:
http://u.115.com/file/bhbol0p5
回复 支持 反对

使用道具 举报

 楼主| 发表于 2011-6-23 10:19:21 | 显示全部楼层
以后再想OCR看这个就OK了,剩下的校对,功夫在自己。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2012-6-8 15:54:47 | 显示全部楼层
这个似乎没转到工程按钮。
回复 支持 反对

使用道具 举报

发表于 2012-6-8 21:13:07 | 显示全部楼层
115地址,404 not found
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 入伍

本版积分规则

小黑屋|手机版|中国拿破仑

GMT+8, 2024-11-21 17:36 , Processed in 0.023362 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表