分析过程:
待分析文本(纯文本文件)——句法结构分析(斯坦福句法分析器)——句法结构检索和统计(Tregex)——测量指标的计算——分析结果输出
句法结构检索和统计过程
明确定义涉及到的所有句法结构(如子句、T单位、并列短语等)——将句法结构定义转换为Tregex表达式——用Tregex对句法分析器生成的句法数进行检索,提取并统计与表达式相匹配的句法结构。
并列短语的定义:包括并列形容词。副词、名词或动词短语。
并列短语的定义对应的Tregex表达式
ADJP|ADVP|NP|VP<CC
此表达式读作:直接包含(<)一个并列连词(CC)的形容词短语(ADJP)、副词短语(ADVP)、名词短语(NP)、或动词短语(VP)
MLS:平均句子长度
T/S:并列句比率(初级学习者使用较多)
MLT:平均T单位长度
DC/C:从属子句比率
MLC:平均子句长度
CP/C:每个子句中的并列短语数量
CN/C:每个子句中的复杂性名词短语数量
二语句法复杂度分析器可靠吗?
搭配、时态、单复数、主谓一致等错误不影响句法结构分析;连写句和缺乏动词的句子片段会导致句法结构分析错误,文中这类句子过多应在分析前予以改正。
(在线界面、图形用户界面、命令行界面)