返回首页
v2.2.6 更新内容
2026-02-25
  • 全面支持 Windows x64 系统
  • macOS 全面支持 Apple Silicon 与 Intel 芯片
  • OCR 引擎稳定性显著提升,大批量处理更加可靠
  • 输出 PDF 智能压缩,体积缩减幅度可达 70%(如 80 MB → 18–25 MB)
下载工具(选择适合你的方式)

macOS 版提供 Apple Silicon(M 系列)与 Intel 两个版本,请按芯片类型选择;Windows 版支持 x64 系统。

Mac 用户:遇到「无法打开」安全提示怎么办?

由于本工具未经 Apple 公证(Notarization),macOS 的 Gatekeeper 在首次打开时会显示「无法打开,因为 Apple 无法检查其是否包含恶意软件」的提示。这是正常现象,按以下步骤操作即可。

方法一:系统设置(推荐)
  1. 双击 .dmg 文件挂载,将应用拖入「应用程序」文件夹
  2. 尝试打开应用,出现安全警告后点击「完成」关闭弹窗
  3. 打开「系统设置」→「隐私与安全性」,向下滚动找到被拦截的应用名称
  4. 点击旁边的「仍要打开」按钮,输入 Mac 密码确认
  5. 再次双击应用,选择弹窗中的「打开」即可正常使用

方法二:右键打开(快捷方式)
  1. 在应用程序文件夹中找到该应用
  2. 右键单击(或 Control + 点击)应用图标,选择「打开」
  3. 弹窗中点击「打开」即可——此后正常双击均可启动

方法三:终端命令(上述方法无效时)

如果系统设置中看不到「仍要打开」按钮,可在终端执行以下命令解除隔离属性:

sudo xattr -rd com.apple.quarantine /Applications/OCR.app

(将 OCR.app 替换为实际文件名)输入 Mac 密码后回车,再次打开应用即可。

双平台
macOS · Windows
10,556
异体字词条
本地运行
无需联网,数据不出境
~70%
PDF 体积压缩比

界面预览

主界面:拖入 PDF 文件或选择文件夹,点击开始处理

主界面:文件队列与批量处理

设置面板:识别质量、并行进程数、异体字映射等选项

设置面板:识别质量与输出选项

研究背景

大量古籍与学术文献以扫描 PDF 形式存档,无法全文检索、复制引用,严重制约数字人文研究的效率。现有云端 OCR 服务虽然便捷,但存在隐私泄露风险,且对古籍异体字、繁体字的识别准确率普遍不足。

研究者需要一款能在本地运行、专为中文古籍优化的高性能 OCR 工具,支持批量处理大规模文献,并内置异体字映射,使识别结果更符合学术检索需求。

核心功能

  • 全文可搜索 PDF:将扫描版 PDF 转换为双层 PDF,保留原始版面,同时嵌入可搜索文本层
  • 异体字映射:内置 10,556 条异体字对照表,自动将识别结果规范化,提升检索覆盖率
  • 批量处理:支持整个文件夹的批量转换,单次可处理数百份文献
  • 断点续传:通过检查点机制记录处理进度,意外中断后可从断点恢复,无需重新处理已完成页面
  • 完整性验证:自动检测输出 PDF 是否完整,识别并报告损坏或遗漏的页面
  • 流水线加速:渲染与 OCR 并行执行,充分利用多核 CPU,显著缩短处理时间
  • 多格式导出:除双层 PDF 外,可同步导出纯文本文件,便于后续文本分析
  • 完全本地运行:无需联网,所有计算在本机完成,敏感文献无外泄风险

技术方法

工具采用高效的流水线架构,将 PDF 渲染与 OCR 识别解耦并行化:

  • PaddleOCR v5 引擎:采用最新版 PaddleOCR,对中文繁体、古籍字体具有较高识别精度
  • 双层 PDF 合成:使用 PyMuPDF 将 OCR 文本精准叠加至原始页面坐标,保留原版视觉效果
  • 流水线并行:PDF 渲染线程与 OCR 线程并行运行,通过队列传递图像,最大化 CPU 利用率
  • 异体字映射:基于学术异体字字典构建映射表,在输出阶段自动替换,不影响原始识别结果
  • 断点续传检查点:每处理完一页即写入检查点文件,支持任意位置恢复,保障长时间批量任务的稳定性
PaddleOCR PyMuPDF PySide6 FastAPI Python

适用场景

  • 古籍整理:将馆藏扫描古籍批量转换为可检索格式,建立全文索引库
  • 学术研究:处理扫描版论文、档案,快速提取引文与关键词,加速文献综述
  • 佛学文献数字化:针对大藏经等大规模佛典扫描件,利用异体字映射提升检索准确性

数字文献学启发

本工具体现了两个数字文献学的核心理念:其一,离线工具保障文献隐私——珍贵古籍与未发表研究材料不应上传至云端,本地化工具是学术伦理的重要保障;其二,异体字处理是古籍 OCR 的核心挑战——同一字义在历史上存在大量书写变体,若不加映射,检索将严重失真,这是通用 OCR 工具难以解决而专项工具必须正视的问题。

查看其他项目 了解更多关于数字文献学