《高僧传》句型分析

材料来源与标注方法 (点击展开/收起)
材料来源
  • 文本:CBETA 电子佛典《高僧传》(T2059),梁慧皎撰
  • 规模:14 卷 / 417 传记 / 711 叙事单元
  • 分句方式:以句号「。」为主切分点,保留引文标点
标注方法(总论 · 五层分析)
  • 方法:正则表达式 + 规则算法,非 LLM
  • 参考:王力《古代汉语》通论 7-14;杨伯峻《古汉语语法及其发展》
  • 五层:句类 → 特殊句式 → 复句 → 修辞 → 时代特征
  • 局限:正则只能捕捉显性标记词,无标记的句式(如无标记被动)可能遗漏
标注方法(词性标注)
  • 方法:LLM 标注(Gemini 2.0 Flash)+ 佛教强制词典后处理
  • 标准:EvaHan 标签体系 + UD UPOS 映射 + FEATS 虚词功能
  • 输出:CoNLL-U 格式(data/processed/gsz_pos.conllu
  • 局限:LLM 标注存在约 2% 的字符重组误差;「依句辨品」(活用)依赖上下文判断,部分边界案例可能不一致
-
总句数
-
已识别句型种类
-
正则+算法覆盖
-
特殊句式数

加载中...

跨维度对比 —— 选择两个卷或两个传记类别(译经/义解/神异/习禅/明律/诵经/兴福/经师/唱导/论),对比它们在各层句式上的分布差异。 左:雷达图——展示十个核心指标(四种句类 + 判断句/被动句 + 顺承/因果 + 对偶/排比)的频率百分比; 右:堆叠柱状图——展示特殊句式(Layer 2)各子类的绝对数量对比。 例如,可对比卷1(译经)与卷12(论),观察论赞文体与叙事文体的句式差异。
加载中...