《高僧传》句型分析
材料来源与标注方法 (点击展开/收起)
材料来源
- 文本:CBETA 电子佛典《高僧传》(T2059),梁慧皎撰
- 规模:14 卷 / 417 传记 / 711 叙事单元
- 分句方式:以句号「。」为主切分点,保留引文标点
标注方法(总论 · 五层分析)
- 方法:正则表达式 + 规则算法,非 LLM
- 参考:王力《古代汉语》通论 7-14;杨伯峻《古汉语语法及其发展》
- 五层:句类 → 特殊句式 → 复句 → 修辞 → 时代特征
- 局限:正则只能捕捉显性标记词,无标记的句式(如无标记被动)可能遗漏
标注方法(词性标注)
- 方法:LLM 标注(Gemini 2.0 Flash)+ 佛教强制词典后处理
- 标准:EvaHan 标签体系 + UD UPOS 映射 + FEATS 虚词功能
- 输出:CoNLL-U 格式(
data/processed/gsz_pos.conllu) - 局限:LLM 标注存在约 2% 的字符重组误差;「依句辨品」(活用)依赖上下文判断,部分边界案例可能不一致
-
总句数-
已识别句型种类-
正则+算法覆盖-
特殊句式数加载中...
跨维度对比 ——
选择两个卷或两个传记类别(译经/义解/神异/习禅/明律/诵经/兴福/经师/唱导/论),对比它们在各层句式上的分布差异。
左:雷达图——展示十个核心指标(四种句类 + 判断句/被动句 + 顺承/因果 + 对偶/排比)的频率百分比;
右:堆叠柱状图——展示特殊句式(Layer 2)各子类的绝对数量对比。
例如,可对比卷1(译经)与卷12(论),观察论赞文体与叙事文体的句式差异。
加载中...