正则表达式:17个
正则表达式:17个
词性赋码集
词性标注(part-of-speech tagging, POS tagging)
语料库标注 英语多系统收费
CLAWS TreeTagger多语种多系统免费
帮助我们写正则表达式的软件:Pattern Builder
\转义符,()作为整体,【】取值范围,l或者
. any character,\s空格,\S非空格,\w, letter, digit, underscore(word character), \W punctuation,space; \d, digit; \D, non-digit; \b, boundary; \u, uppercase; \l, lowercase
? 有或者无(0或者1);* 重复0次或更多;+重复1次或;更多
练*
请找出文本中所有be动词+动词ed的被动结构
\b(arelwerelarelislwas)\b (\S+ ) *\w+ed\b
\b(learnlburnldreamlspell*lsmell*)(edlt)\b
词性标注(part-of-speech tagging,POS tagging)
语料库建设:采集、整理、分词、标注(语音、词性、句法、语义、元信息、质性等)
CLAWS(英语,多系统,收费)兰卡
TreeTagger(多语种,多系统,免费)德国
词性赋码集(POS Tagset)
CLAWS Tagset C7
V(动词): B(be动词); D (do); H (have)
软件:Pattern Builder(辅助编写正则表达式)
AntConc (检索正则表达式,支持Win & Mac和多语种)
PowerConc(检索正则表达式,支持Win 和英汉语)
Concordance Plot分别出现的次数
物主代词(\S+_PP\$|\S+_POS)
情态动词
(查看、调试): EditPad Pro 大范围检索(所有字符、空格、构词字符、数字);限定性检索(边界、大小写)
(辅助编写)Pattern Builder
(检索)AntConc; Power Conc
(词类、格、时态、体、语态的检索)
\S+_VB\w*\s(\S+_RB\w*\s)*\S+_V\wG
\S+_VH\w*\s(\S+_RB\w*\s)*\S+_V\wN
\S+_VB\w*\s(\S+_R\w*\s)*\S+_V\wN