语料库研究方法:基础与应用

语料库研究方法:基础与应用
466人加入学习
(16人评价)
价格 ¥399.00
学时 6.0
学时 6.0
学习有效期 180 天(随到随学)
会员免费学 购买课程

词性赋码集

词性标注(part-of-speech tagging, POS tagging)

语料库标注   英语多系统收费

CLAWS     TreeTagger多语种多系统免费

帮助我们写正则表达式的软件:Pattern Builder

 

[展开全文]

 \转义符,()作为整体,【】取值范围,l或者

.  any character,\s空格,\S非空格,\w, letter, digit, underscore(word character), \W punctuation,space; \d, digit; \D, non-digit; \b, boundary; \u, uppercase; \l, lowercase

? 有或者无(0或者1);* 重复0次或更多;+重复1次或;更多

练*

请找出文本中所有be动词+动词ed的被动结构

\b(arelwerelarelislwas)\b (\S+ ) *\w+ed\b

\b(learnlburnldreamlspell*lsmell*)(edlt)\b

[展开全文]

词性标注(part-of-speech tagging,POS tagging)

语料库建设:采集、整理、分词、标注(语音、词性、句法、语义、元信息、质性等)

CLAWS(英语,多系统,收费)兰卡

TreeTagger(多语种,多系统,免费)德国

词性赋码集(POS Tagset)

CLAWS Tagset C7

V(动词): B(be动词); D (do); H (have)

软件:Pattern Builder(辅助编写正则表达式)

AntConc (检索正则表达式,支持Win & Mac和多语种)

PowerConc(检索正则表达式,支持Win 和英汉语)

Concordance Plot分别出现的次数

物主代词(\S+_PP\$|\S+_POS)

情态动词

[展开全文]

(查看、调试): EditPad Pro 大范围检索(所有字符、空格、构词字符、数字);限定性检索(边界、大小写)

(辅助编写)Pattern Builder

(检索)AntConc; Power Conc

(词类、格、时态、体、语态的检索)

\S+_VB\w*\s(\S+_RB\w*\s)*\S+_V\wG

\S+_VH\w*\s(\S+_RB\w*\s)*\S+_V\wN

\S+_VB\w*\s(\S+_R\w*\s)*\S+_V\wN

[展开全文]