返回演示项目

研究背景

中国古代文献大量引用前人著作,但往往只言「经云」「论曰」而不标明出处。研究者需要凭借学识和记忆力逐一核查,这在面对大规模文献时几乎不可能完成。

本系统旨在将「引文溯源」从人工翻检转变为智能匹配,帮助研究者快速定位引文的原始出处,特别适用于思想史、文献学研究。

核心功能

  • PDF 上传与 OCR 文本识别(基于 Gemini API)
  • 大规模古籍库的全文索引
  • 多策略文本匹配:精确匹配、模糊匹配、SimHash 相似度
  • 匹配结果可视化展示与导出
  • 支持批量处理与增量更新

技术方法

系统采用多策略综合匹配架构:

  • Gemini API 进行 OCR 识别,处理扫描件
  • Whoosh 全文索引引擎,支持中文分词
  • SimHash 算法计算文本指纹相似度
  • 多策略结果综合排序,提高召回率与准确率
Python Flask Gemini OCR Whoosh SimHash

使用材料

本系统需要两类输入:

  • 原书 PDF:需要查找引文出处的文献
  • 古籍库 PDF:可能被引用的文献集合

系统会自动对原书进行 OCR 识别,提取可能的引文段落,然后在古籍库中搜索匹配。

数字文献学启发

本项目体现了大规模文本比对在文献学研究中的潜力。传统方法依赖研究者的博闻强记,数字方法则通过穷尽式搜索弥补人类记忆的局限。这不是取代学者的判断力,而是扩展学者的检索范围。

立即体验 GitHub 下载 查看其他项目