《高僧传》故事类型

📊 本页分析基于 532 个主传叙事单元（排除 179 条附见）。附见僧人为卷内碎片化记载，不纳入叙事形态学统计。

叙事功能类型分布

高僧传有几种叙事"语法"？通过对 2127 个阶段摘要进行语义聚类，识别反复出现的叙事功能类型。

技术原理

方法：Vladimir Propp《故事形态学》(1928) 将民间故事分解为有限的叙事功能。此处借鉴该思路，对每个阶段摘要（如"幼年出家""西行求法"）用 DashScope text-embedding-v4 嵌入为 1024 维向量，再用 KMeans (k=20) 聚类。每个簇即一种叙事功能类型。
参数：k=20（自动取 min(20, 阶段数/5)），n_init=10。

故事弧线类型

有几种基本情节曲线？计算每个故事阶段间的语义位移序列，用动态时间规整 (DTW) 聚类。

技术原理

方法：Andrew Reagan et al. (2016) "The emotional arcs of stories" 发现 6 种基本情节弧线。此处类似地，将每个故事的阶段间余弦距离序列视为"弧线"。用 DTW (Dynamic Time Warping) 计算弧线间距离，再用层次聚类 (Average Linkage) 分为 6 类。
解读：纵轴为阶段间语义转变幅度（0=延续，1=突变），横轴为阶段序号。

叙事景观 (UMAP)

14 卷分类是否反映叙事聚类？将 532 个故事的 1024 维语义向量投影到二维空间。

按卷筛选：

技术原理

方法：UMAP (McInnes et al., 2018) 是一种非线性降维算法，能在二维空间中保留高维数据的局部和全局结构。
参数：n_neighbors=15, min_dist=0.1, random_state=42。
颜色：按卷编号着色。相近的点意味着叙事结构相似。

卷间指纹对比

哪些卷叙事风格最近/最远？用标签频率和阶段类型频率构建每卷"指纹"，计算余弦距离。

技术原理

方法：每卷计算三种"指纹"——平均语义向量、标签频率向量、阶段类型频率向量。卷间余弦距离矩阵揭示慧皎的分类方案与叙事内容的一致性。
热力图：颜色越深 = 距离越大（风格越不同）。对角线为 0。
雷达图：点击热力图中的某卷可查看该卷的标签分布。

叙事模板检测

慧皎反复使用了哪些叙事公式？提取跨人物的高相似度故事对，揭示隐含的叙事模板。

技术原理

方法：计算 NxN 余弦相似度矩阵，排除同一僧人后，提取 top 200 高相似对 (>0.65)。这些对共享的标签组合和结构摘要揭示了慧皎在不同传记中重复使用的叙事模板。
网络图：节点=故事，边=相似度>0.65。使用 vis.js 力导向布局，聚集区域表示一组结构相似的传记。

时空交叉分析

叙事相似来自历史接近还是写作模板？分析叙事相似度与时间/地理距离的相关性。

技术原理

方法：利用 DILA TEI 编码的地理坐标和年代信息，计算每对故事的时间距离（年）和地理距离（度），与叙事余弦相似度做皮尔逊相关分析。
解读：如果相关系数接近 0，说明叙事相似主要来自慧皎的写作模板而非历史因素。负相关说明跨时代/跨地域的故事反而更相似（模板效应）。