智能OCR工具 v2 | 数字文献学

返回首页

v2.2.6 更新内容

2026-02-25

全面支持 Windows x64 系统
macOS 全面支持 Apple Silicon 与 Intel 芯片
OCR 引擎稳定性显著提升，大批量处理更加可靠
输出 PDF 智能压缩，体积缩减幅度可达 70%（如 80 MB → 18–25 MB）

下载工具（选择适合你的方式）

macOS Apple Silicon 635 MB · M 系列芯片

macOS Intel 680 MB · Intel 芯片

Windows 安装包 510 MB · x64

GitHub Releases 适合科学上网用户 · 含所有平台安装包

macOS 版提供 Apple Silicon（M 系列）与 Intel 两个版本，请按芯片类型选择；Windows 版支持 x64 系统。

Mac 用户：遇到「无法打开」安全提示怎么办？

由于本工具未经 Apple 公证（Notarization），macOS 的 Gatekeeper 在首次打开时会显示「无法打开，因为 Apple 无法检查其是否包含恶意软件」的提示。这是正常现象，按以下步骤操作即可。

方法一：系统设置（推荐）

双击 .dmg 文件挂载，将应用拖入「应用程序」文件夹
尝试打开应用，出现安全警告后点击「完成」关闭弹窗
打开「系统设置」→「隐私与安全性」，向下滚动找到被拦截的应用名称
点击旁边的「仍要打开」按钮，输入 Mac 密码确认
再次双击应用，选择弹窗中的「打开」即可正常使用

方法二：右键打开（快捷方式）

在应用程序文件夹中找到该应用
右键单击（或 Control + 点击）应用图标，选择「打开」
弹窗中点击「打开」即可——此后正常双击均可启动

方法三：终端命令（上述方法无效时）

如果系统设置中看不到「仍要打开」按钮，可在终端执行以下命令解除隔离属性：

sudo xattr -rd com.apple.quarantine /Applications/OCR.app

（将 OCR.app 替换为实际文件名）输入 Mac 密码后回车，再次打开应用即可。

双平台

macOS · Windows

10,556

异体字词条

本地运行

无需联网，数据不出境

~70%

PDF 体积压缩比

界面预览

主界面：文件队列与批量处理

设置面板：识别质量与输出选项

研究背景

大量古籍与学术文献以扫描 PDF 形式存档，无法全文检索、复制引用，严重制约数字人文研究的效率。现有云端 OCR 服务虽然便捷，但存在隐私泄露风险，且对古籍异体字、繁体字的识别准确率普遍不足。

研究者需要一款能在本地运行、专为中文古籍优化的高性能 OCR 工具，支持批量处理大规模文献，并内置异体字映射，使识别结果更符合学术检索需求。

核心功能

全文可搜索 PDF：将扫描版 PDF 转换为双层 PDF，保留原始版面，同时嵌入可搜索文本层
异体字映射：内置 10,556 条异体字对照表，自动将识别结果规范化，提升检索覆盖率
批量处理：支持整个文件夹的批量转换，单次可处理数百份文献
断点续传：通过检查点机制记录处理进度，意外中断后可从断点恢复，无需重新处理已完成页面
完整性验证：自动检测输出 PDF 是否完整，识别并报告损坏或遗漏的页面
流水线加速：渲染与 OCR 并行执行，充分利用多核 CPU，显著缩短处理时间
多格式导出：除双层 PDF 外，可同步导出纯文本文件，便于后续文本分析
完全本地运行：无需联网，所有计算在本机完成，敏感文献无外泄风险

技术方法

工具采用高效的流水线架构，将 PDF 渲染与 OCR 识别解耦并行化：

PaddleOCR v5 引擎：采用最新版 PaddleOCR，对中文繁体、古籍字体具有较高识别精度
双层 PDF 合成：使用 PyMuPDF 将 OCR 文本精准叠加至原始页面坐标，保留原版视觉效果
流水线并行：PDF 渲染线程与 OCR 线程并行运行，通过队列传递图像，最大化 CPU 利用率
异体字映射：基于学术异体字字典构建映射表，在输出阶段自动替换，不影响原始识别结果
断点续传检查点：每处理完一页即写入检查点文件，支持任意位置恢复，保障长时间批量任务的稳定性

PaddleOCR PyMuPDF PySide6 FastAPI Python

适用场景

古籍整理：将馆藏扫描古籍批量转换为可检索格式，建立全文索引库
学术研究：处理扫描版论文、档案，快速提取引文与关键词，加速文献综述
佛学文献数字化：针对大藏经等大规模佛典扫描件，利用异体字映射提升检索准确性

数字文献学启发

本工具体现了两个数字文献学的核心理念：其一，离线工具保障文献隐私——珍贵古籍与未发表研究材料不应上传至云端，本地化工具是学术伦理的重要保障；其二，异体字处理是古籍 OCR 的核心挑战——同一字义在历史上存在大量书写变体，若不加映射，检索将严重失真，这是通用 OCR 工具难以解决而专项工具必须正视的问题。

查看其他项目了解更多关于数字文献学