本系统将《高僧传》与传统汉籍(史部、子部、集部等)进行对齐,建立跨典籍平行文本检索引擎,揭示佛传文学与中国固有文献之间的互文、借鉴与文化对话关系。

63,231,290 全量句子
8,229 典籍文献
10 文献大类
87,469 已嵌入向量

字词检索

基于 SQLite FTS5 trigram 分词器,覆盖殆知阁全量 6323 万句(排除佛藏)。入库时自动繁简转换,滑动三元组 OR 查询,2 字以下 LIKE 回退。

语义检索

对 8.7 万文本块使用 DashScope text-embedding-v4(1024 维)生成向量,FAISS IndexFlatIP 近似检索。针对无标点古籍分块特点,相似度阈值设为 0.60。

来源覆盖

数据来自殆知阁 v20 全本(15,694 文件),涵盖经、史、子、集、道藏、艺术、医书等十大类,以 opencc 繁体化入库,永久排除《高僧传》自引。