引典 | 数字文献学

研究背景

中国古代文献大量引用前人著作，但往往只言「经云」「论曰」而不标明出处。研究者需要凭借学识和记忆力逐一核查，这在面对大规模文献时几乎不可能完成。

本系统旨在将「引文溯源」从人工翻检转变为智能匹配，帮助研究者快速定位引文的原始出处，特别适用于思想史、文献学研究。

系统采用多策略综合匹配架构：

Python Flask Gemini OCR Whoosh SimHash

本系统需要两类输入：

系统会自动对原书进行 OCR 识别，提取可能的引文段落，然后在古籍库中搜索匹配。

本项目体现了大规模文本比对在文献学研究中的潜力。传统方法依赖研究者的博闻强记，数字方法则通过穷尽式搜索弥补人类记忆的局限。这不是取代学者的判断力，而是扩展学者的检索范围。