解决mac端没有ocrpro:mac端mn用abbyy替换源pdf攻略

问题描述

和ipad的ios系统的marginnote不一样,由于macos上没有对整个pdf进行ocr的功能,因此对于扫描的 图片pdf 非常不友好,不能选择文本,只能用框摘录.而像划重点,标题链接,全书搜索这样的功能更是完全无法完成,因此引发了若干人血书
其他有同样需求和心得的帖子有:



官方相关表态有

因此,在等到新版本解决之前,特别需要一个方法来将 图片pdf 转化为 ocr后的pdf ,从而在macos上也有和ipad一样的阅读体验.

这个方法有以下要求:

  • 能够在转化书籍的同时保留原书的摘要与脑图结构。
  • 修改后pdf样子要与原先保持一致,就如同ipad上ocrpro后的pdf一样。

名词约定:

图片pdf:所有文字都不可以选择,每页只是一张图片.如果你强行想要选择文本,就会这样↓
image

ocr后的pdf:所有文字都可以选择,因而支持划重点,标题链接,全书搜索这样的功能.

环境准备

系统环境:

  • macos10.15(目前演示实验环境是运行在vmware中)
  • windows10 作为转化pdf的工作环境

涉及软件:

  • ABBYY_15.0 用于转化pdf,是ios端ocr的技术提供方,因此只要把pdf经过abbyy处理之后就可以有一致的体验
  • FreePic2Pdf 用于将原先的图片pdf的目录导入ocr后的目录结构

操作步骤

步骤千万条 备份第一条

操作不规范 自己两行泪

一切开始之前把相关的脑图包括文档一起备份

abbyy出于教学和科研目的使用方法

实不相瞒,我出于教学和科研目直接通过百度网盘搜索工具找到了相关资源.但是根据社会主义核心价值观,请大家自行查找资源,并建议支持正版

安装完后可以在路径 ABBYY_15.0.112.2130_Green\ABBYY FineReader\ 中找到 FineReaderOCR.exe

界面如下

ABBYY ocr方法

点击file->new task,然后点击Open in OCR Editor之后选择目标pdf

之后就等待他ocr结束

![image-20200507214755485]

完成之后点击另存为Searchable PDF Document,Searchable PDF Document就是我们想要的ocr后的pdf

abbyy保存以及相关参数设置

保存的时候可以进行参数设置,这里我

  • 在Searchable PDF settings里面选择Text under the page image.这意味我们看到的内容是和原版pdf一模一样的(最上面是图像层) 而我们搜索 摘录选择的文本是在文本层,位于图像层下方.

  • 把质量选择为自定义,在里面选择质量不损失

  • use MRC compression 这一个选择整个勾掉 压缩会影响画质

截取自群内大佬的图↓

image

image

在质量不损失之后就可以有非常清晰的结果

更新:经过探索,其实这里参数可以这样设置,结果会更好

用FreePic2Pdf来保障目录(并演示车祸现场)

目录结构千万不能改变!!!如果转化后的书籍的目录发生了改变,通过重新连接后的笔记会发生如下喜闻乐见的事情

请少侠自己重新拼思维导图吧.原先的目录结构是这样的↓

这件事情发生的原因是当初做笔记摘录的时候选择了自动插入image-20200507212218167 来使得新卡片在脑图中的父节点就是目录.在文档目录结构改变后,这些脑图卡片的父节点就全部跟着目录一起灰飞烟灭了,因为父节点是由目录来决定的.

在讲清楚了让转化后的pdf目录和原先一致的必要性之后,现在开始回顾刚刚被ocr好的pdf

我们发现基本字体颜色没有改变,能够选择文本.但是没有目录.

我们在开始一切操作之前,先把原版pdf与ocr好的pdf进行备份

我们在开始一切操作之前,先把原版pdf与ocr好的pdf进行备份

我们在开始一切操作之前,先把原版pdf与ocr好的pdf进行备份

三遍完毕,开始进入目录操作:

  • 从原来pdf取书签
  • 将取出的书签导入到ocr后的pdf

这个时候轮到freepic2pdf出场了,点击右下角更改PDF

image-20200507220127302

首先点击取书签,选择原版的pdf,存放接口文件的文件夹随意,但是请把路径复制一遍.最后点击开始

image-20200507220738127

image-20200507220850632

点击挂书签,选择ocr后的pdf,填写接口路径,最后开始

如果失败,请关闭所有pdf查看器

最终,打开ocr pdf查看效果,比较圆满

在marginnote删除原来的pdf

先把ocr的pdf放到marginnote相应目录下

之后删除原来的pdf

恢复连接选择新的ocr完毕的pdf

把文档关联了,最终成功

未来展望

目前操作还是有些繁琐,未来希望能将pdf处理流程变得:

  • 自动化:封装成一个脚本
  • 批量化:能对多个pdf同时运行
  • 目前这个操作是在windows上完成的,需要探索一条在mac上编辑的路径

希望官方能够在ipad端的使用abbyy进行pdf ocr之后,在icloud上建立一个ocr后的pdf副本来供mac端使用

此外freepic2pdf的给pdf批量添加目录也是很方便的事情,大致工作流如下:

  • 导出pdf目录
  • 在淘宝或京东商品目录找到书籍目录
  • 用几个常用正则表达式对目录文本进行批量替换修改,使得目录文本满足freepic2pdf的目录语法
  • 导入目录
    具体操作最近会总结分享的
5赞

在这里给出完整的导出设置以及一个自动化方案,先把图贴上来,具体描述后期更新
打开image
新建一个任务
这是建好之后的样子



分为四步:

  1. 任务运行周期,这里就选择运行一次 立刻开始
  2. 选择读取的文件
  3. ocr识别pdf
  4. 保存pdf

最关键的是保存,列图说明:

  1. 和之前保存一样,option进行设置
  2. 取消压缩
  3. 文本层位于图像层之下,保证保存的pdf视觉上和原pdf完全一样
  4. 让保存的pdf的目录和原pdf一致 (这里有些问题,还是推荐用freepic2pdf进行目录导出导入)
  5. 选择自定义
    6.不改变图片
    7.不允许损失质量

最后设置为每个文件创建一个单独文档,并设置保存的pdf名称
image

在开始任务之前,把需要ocr的pdf拖动到读取文件夹下面,然后run吧

1赞

哇,我的那个帖子都已经石沉大海了哈哈哈哈,感谢你把它翻出来哈哈哈哈。

win上这么做我觉得也还是没有直接OCR Pro方便qaq,也是一种可行的方案——可惜我也没有win电脑

abbyy mac端也有 要是mac有ocrpro的话我也不会这么折腾了 没有经过ocrpro的pdf是在太难受,ipad有ocrpro 但是ipad屏幕毕竟没有显示器大

有是有,好几年前的版本,精准度一类的被win的版本甩出去不少

对,iPad比不上Mac的还是显示器大小。而且老的键盘也不行,打字很难受,稳定性也不好,经常打不了字。

我再补充几个:
Readiris Mac/Windows
PDFElement Mac/Windows (用的ABBYY)
pdfsandwich 全平台(命令行,ocr 引擎是 Tesseract)
ocrmypdf 全平台(命令行,ocr 引擎是 Tesseract)

1赞