海量PDF识别（OCR），实现全文检索服务

q平面人

2993人浏览 · 2021-11-06 10:28:30

q平面人 · 2021-11-06 10:28:30 发布

需求：几千个pdf版电子规范，如何实现提供全文检索服务呢？
市面上有类似的应用。自己动手的话有这样的思路，代码几百行，见开源代码。
缺点：关键词搜索后，无法定位到规范的那一页，只能知道是在哪个规范里。浏览器打开那个规范后，再次ctrl+F查找。
第一步：海量pdf的识别。adobe acrobat pro是全世界最好的识别中文的软件，没有之一。走的弯路比如用myocrpdf，命令行进行识别，效果比前者还是差（如下图），但是基本可用。但前者不支持命令行，也没找到调用的API，用automate自动操作程序？或appscript模拟点击按钮？

另外，识别不是提取pdf文字，识别后还是pdf文件，但是里面的文字可以选择了。而提取文字也是首先要识别，但不一定能够放回原来的pdf上。
解决方案：用adobe acrobat pro的“动作”，如下图去设置即可。设置好动作，文件夹内的所有pdf都会识别，保存到另外一个文件夹了。

第二步：docker安装elasticsearch和tika及ik，见