返回首页

研究背景

梁代慧皎所撰《高僧传》是中国佛教史上最重要的传记文献之一,收录了从东汉到梁代约 500 位高僧的传记,分为译经、义解、神异等十科。这些传记蕴含着丰富的叙事模式:神通显现、修行证悟、师徒传承、政教互动等反复出现的故事类型,构成了佛教文化传播的基本叙事框架。

传统的类型学研究依赖人工阅读与分类,效率低且难以进行大规模的跨卷比对。本项目借助大语言模型(LLM)的语义理解能力和向量检索技术,对全部 14 卷 473 个叙事单元进行自动分类、结构提取和相似度匹配,为佛教叙事学研究提供系统化的数字工具。

核心功能

  • 故事浏览与全文搜索:按卷、按人物浏览全部 473 个叙事单元,支持 6460 句子级全文检索
  • 关系网络与传承树:可视化高僧之间的师徒关系、地理分布和时间线
  • 来源比对与版本谱系:追踪故事的文献来源,比较不同版本间的异同

技术方法

系统采用"多模型投票融合 + 双通道检索"的技术架构:

  • LLM 多标签分类:使用 Qwen、DeepSeek、Gemini 三模型投票,对每个叙事单元进行 32 个标签(5 大类)的自动分类
  • 双通道语义检索:结合 TF-IDF 词汇匹配与 DashScope 1024 维向量语义匹配,实现精准的故事相似度计算
  • 学者研究集成:整合 DILA 佛学数据、多语种平行语料和学者文献,支持跨数据源的交叉比对
Flask LLM Ensemble FAISS TF-IDF

使用材料

  • CBETA 电子佛典《高僧传》全 14 卷(T2059),含 192 部传记
  • DILA 佛学规范资料库(人物、关系、地点 TEI 数据)、佛学同义词库(11,877 词、66,213 关系对)

数字文献学启发

故事类型学(Story Typology)揭示了宗教传记文献中反复出现的叙事模式。通过将传统的类型学方法与 LLM 语义分析相结合,我们能够在数百个叙事单元中自动发现、分类和追踪这些模式,让研究者从"逐篇阅读"转向"全景式比对",为理解佛教叙事传统的形成与演变提供新的视角。

立即体验 查看其他项目 了解更多关于数字文献学