解决mac端没有ocrpro:mac端mn用abbyy替换源pdf攻略

tianyilt · 2020 年5 月 8 日 01:36

问题描述

和ipad的ios系统的marginnote不一样,由于macos上没有对整个pdf进行ocr的功能,因此对于扫描的 图片pdf 非常不友好,不能选择文本,只能用框摘录.而像划重点,标题链接,全书搜索这样的功能更是完全无法完成,因此引发了若干人血书．
其他有同样需求和心得的帖子有:

【经验分享】Mac上还没有更新OCR Pro——一个不完美的替代方案领域最佳实践分享

等Mac版本更新OCR Pro真的等死我了，后来看到开发者说因为价格没有谈妥，所以暂时不加入这个功能。在这方面我觉得开发者真的是为用户着想的，表示深深的敬意。但是呢，自从接触过OCR Pro之后，我的MarginNote基本上就变得只在iPad上使用了，因为这玩意太过瘾太方便了。Mac版本的也不能就搁在那里呀，毕竟相比于iPad，Mac有更方便的操作（鼠标）和更大的屏幕。这个时候大家可以去用ABBYY的Finescanner（iOS和Android上都有）来扫描文件，扫描完了之后可以选择进行OCR，然后把Searchable PDF的文件导入到MarginNote，这样的话Mac上也就有了一个类似OCR Pro一样能用的东西。 [4BFF2BF8-7D0A-4403-8485-8B602EE4E398] 最后在Mac上打开的效果： [CD3EE17B-6B75-4800-A32A-7FCEE6D9B27B] 写这个只是为了帮助一下一些急着要在Mac上用OCR Pro的功能的人。至于说ABBYY的Finescanner的价格来说的话，目前折扣貌似是30元一年。我不得不说的是，相比于MarginNote自己使用的OCR引擎来说，Finescanner还是有很多的局限性的。首先来说你必须得是自己扫描的书籍，其次的话你扫描完一个文件之后iPad必须放在那边什么事都不干，等它慢慢上传到服务器处理，处理成扫描件之后你还得再把它上传到服务器制作成Searchable PDF。这个相比于MarginNote自己东西来说前期准备需要消耗不少的时间。只是随便摸索到的一些东西，希望能帮助到各位：）

官方相关表态有
https://bbs.marginnote.com.cn/t/topic/2821/6?u=tianyilt

因此,在等到新版本解决之前,特别需要一个方法来将 图片pdf 转化为 ocr后的pdf ，从而在macos上也有和ipad一样的阅读体验．

这个方法有以下要求：

能够在转化书籍的同时保留原书的摘要与脑图结构。
修改后pdf样子要与原先保持一致，就如同ipad上ocrpro后的pdf一样。

名词约定:

图片pdf:所有文字都不可以选择,每页只是一张图片.如果你强行想要选择文本,就会这样↓

ocr后的pdf:所有文字都可以选择,因而支持划重点,标题链接,全书搜索这样的功能.

环境准备

系统环境：

macos10.15（目前演示实验环境是运行在vmware中）
windows10 作为转化pdf的工作环境

涉及软件：

ABBYY_15.0 用于转化pdf，是ios端ocr的技术提供方，因此只要把pdf经过abbyy处理之后就可以有一致的体验
FreePic2Pdf 用于将原先的图片pdf的目录导入ocr后的目录结构

操作步骤

步骤千万条备份第一条

操作不规范自己两行泪

一切开始之前把相关的脑图包括文档一起备份

abbyy出于教学和科研目的使用方法

实不相瞒,我出于教学和科研目直接通过百度网盘搜索工具找到了相关资源.但是根据社会主义核心价值观,请大家自行查找资源,并建议支持正版

安装完后可以在路径 ABBYY_15.0.112.2130_Green\ABBYY FineReader\ 中找到 FineReaderOCR.exe

界面如下

ABBYY ocr方法

点击file->new task,然后点击Open in OCR Editor之后选择目标pdf

之后就等待他ocr结束

![image-20200507214755485]

完成之后点击另存为Searchable PDF Document,Searchable PDF Document就是我们想要的ocr后的pdf

abbyy保存以及相关参数设置

保存的时候可以进行参数设置,这里我

在Searchable PDF settings里面选择Text under the page image.这意味我们看到的内容是和原版pdf一模一样的(最上面是图像层) 而我们搜索摘录选择的文本是在文本层,位于图像层下方.
把质量选择为自定义,在里面选择质量不损失
use MRC compression 这一个选择整个勾掉压缩会影响画质

截取自群内大佬的图↓

在质量不损失之后就可以有非常清晰的结果

更新:经过探索,其实这里参数可以这样设置,结果会更好

解决mac端没有ocrpro:mac端mn用abbyy替换源pdf攻略领域最佳实践分享

在这里给出完整的导出设置以及一个自动化方案,先把图贴上来,具体描述后期更新打开[image] 新建一个任务这是建好之后的样子 [image] [image] 分为四步: 任务运行周期,这里就选择运行一次立刻开始选择读取的文件 ocr识别pdf 保存pdf 最关键的是保存,列图说明: [image] 和之前保存一样,option进行设置取消压缩文本层位于图像层之下,保证保存的pdf视觉上和原pdf完全一样让保存的pdf的目录和原pdf一致 (这里有些问题,还是推荐用freepic2pdf进行目录导出导入) 选择自定义 6.不改变图片 7.不允许损失质量最后设置为每个文件创建一个单独文档,并设置保存的pdf名称 [image] 在开始任务之前,把需要ocr的pdf拖动到读取文件夹下面,然后run吧