《高僧传》句型分析

材料来源与标注方法 （点击展开/收起）

材料来源

文本：CBETA 电子佛典《高僧传》（T2059），梁慧皎撰
规模：14 卷 / 417 传记 / 711 叙事单元
分句方式：以句号「。」为主切分点，保留引文标点

标注方法（总论 · 五层分析）

方法：正则表达式 + 规则算法，非 LLM
参考：王力《古代汉语》通论 7-14；杨伯峻《古汉语语法及其发展》
五层：句类 → 特殊句式 → 复句 → 修辞 → 时代特征
局限：正则只能捕捉显性标记词，无标记的句式（如无标记被动）可能遗漏

标注方法（词性标注）

方法：LLM 标注（Gemini 2.0 Flash）+ 佛教强制词典后处理
标准：EvaHan 标签体系 + UD UPOS 映射 + FEATS 虚词功能
输出：CoNLL-U 格式（data/processed/gsz_pos.conllu）
局限：LLM 标注存在约 2% 的字符重组误差；「依句辨品」（活用）依赖上下文判断，部分边界案例可能不一致

总句数

已识别句型种类

正则+算法覆盖

特殊句式数

总论
跨维度对比
词性标注

加载中...

跨维度对比 —— 选择两个卷或两个传记类别（译经/义解/神异/习禅/明律/诵经/兴福/经师/唱导/论），对比它们在各层句式上的分布差异。 左：雷达图——展示十个核心指标（四种句类 + 判断句/被动句 + 顺承/因果 + 对偶/排比）的频率百分比； 右：堆叠柱状图——展示特殊句式（Layer 2）各子类的绝对数量对比。例如，可对比卷1（译经）与卷12（论），观察论赞文体与叙事文体的句式差异。

对比维度

对象A

对象B

加载中...

Layer 6 · 词性标注（LLM 标注） —— 对全书 6,426 句做学术规范的分词与词性标注，产出 CoNLL-U 格式语料库。
标注方法：使用 Gemini 2.0 Flash 模型，每 10 句为一批，以 few-shot prompt 指导标注，标注后经佛教强制词典（49,939 词条，来自 DILA TEI 人物/地名数据 + 佛教同义词库）后处理，合并被拆分的音译词和专名。
标签体系：18 类词性标签（EvaHan 标准 + 新增 nf 音译专名），附 UPOS 映射；多义虚词（之/以/為/而/所/於/者/也/矣/乎）在独立的 FEATS 字段标注功能（如 Func=Attr 表示「之」作领属助词），不混入词性主标签。
体裁检测：基于子句等长度模式自动区分散文 / 偈颂（四言/五言/七言格律）/ 引文（引号包裹）。
注意事项：① 约 2% 句子存在字符重组微小偏差（LLM 偶尔增删字符）；② 「依句辨品」原则下，同一词在不同语境可能标不同词性（如「善」作动词 vs 形容词）；③ 偈颂检测基于形式特征，部分散文中的整齐句式可能被误判。

总词数（不含标点）

标注句数

偈颂句

引文句

版本

各词性在全书中的词频占比（不含标点符号）。动词占比最高（~32%），名词次之（~20%），反映传记体以叙事为主。

虚词功能消歧频次排名。古汉语虚词一词多用：如「之」可作代词（Func=Pro）、领属助词（Func=Attr）、名词化助词（Func=Nom）等。此图展示各功能在全书中的出现次数。

筛选浏览：选择词性、虚词功能或体裁，查看符合条件的句子。每句以彩色下划线标示词性（鼠标悬停显示词性名称与功能标注）。

按词性筛选

按虚词功能

体裁

名词动词副词人名地名音译