中国拿破仑论坛

 找回密码
 入伍
新兵指南:让新兵更快熟悉论坛转载文章请注明作者/译者及出处@napolun.com邮箱自助申请
近卫军名将 - 赤胆忠心的“圣贤”德鲁奥 电影《滑铁卢》DVD-5一张钱老神作 THE CAMPAIGNS OF NAPOLEON
拿破仑所著小说《克利松与欧仁妮》波兰军团的创始者——东布罗夫斯基 路易斯-皮雷•蒙布伦和他的骑兵生涯
查看: 3726|回复: 3

[教程] OCR兼校对详细教程

[复制链接]
发表于 2008-7-17 13:04:51 | 显示全部楼层 |阅读模式
本区本团的主要任务之一是负责OCR和文本校对,利在减少电子书体积,方便传播知识。鉴于广大会员的学习需要,特略作讲解,以期快速上手。

在正式讲解之前,我想先对OCR或早或者校对的概念做一个解释。


我们常接触的电子书有以下几种:pdf、exe、chm、超星等。

首先介绍一下pdf:由图片制作的通称为影印pdf,由word文稿编录的通称为文本pdf。相对于影印pdf,文本pdf体积更小,而且可以复制。

下一个是超星:这种电子书都是由图片制作的,图片来源于相机拍摄,所以清晰度不高,这就使ocr不太容易。

我们主要面对的就是影印pdf和超星电子书。那么就需要ocr,将这些难以复制文字且体积庞大的图片摘出文字。

OCR全称Optical Character Recognition(光学字符识别),我们需要使用ocr软件使得文字对比输出,加之人工校对识别,最后输出文本。实际上就是“由图转文”。


ocr软件有尚书7号、清华紫光、汉王文本王等几种。也有可以将影印pdf直接提取文本的简便工具,但是识别率不高。一般的ocr工作我们使用常规ocr软件来完成。文豪7600绿色简洁专业版和尚书7号都很不错。

ocr之后并不代表文本已经完全解决。因为我们在工作的时候不免疏忽少数文字,这就需要校对。一般为了方便,网络校对需要两次:初校和精校。

校对时应牢记:除了对标点、文字的更正外,更需要对文章本身的句法做修正注释,对于繁体或者竖排的文稿需要处理为中文简体。校对差错率要保持在万分之二以下。

总之这个工作是需要耐心的,没有责任心是不行的。


回复

使用道具 举报

 楼主| 发表于 2008-7-17 13:09:38 | 显示全部楼层
未完待续
回复 支持 反对

使用道具 举报

发表于 2008-8-24 18:22:20 | 显示全部楼层
ocr的任务我现在可以完成一部分 有活没?
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-8-25 09:46:08 | 显示全部楼层
现在主要是校对了,OCR需要一次呵成,我手头还没有多少论文类的小篇幅材料。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 入伍

本版积分规则

小黑屋|手机版|中国拿破仑

GMT+8, 2024-11-26 07:52 , Processed in 0.022434 second(s), 16 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表