(查看、调试): EditPad Pro 大范围检索(所有字符、空格、构词字符、数字);限定性检索(边界、大小写)
(辅助编写)Pattern Builder
(检索)AntConc; Power Conc
(词类、格、时态、体、语态的检索)
\S+_VB\w*\s(\S+_RB\w*\s)*\S+_V\wG
\S+_VH\w*\s(\S+_RB\w*\s)*\S+_V\wN
\S+_VB\w*\s(\S+_R\w*\s)*\S+_V\wN
(查看、调试): EditPad Pro 大范围检索(所有字符、空格、构词字符、数字);限定性检索(边界、大小写)
(辅助编写)Pattern Builder
(检索)AntConc; Power Conc
(词类、格、时态、体、语态的检索)
\S+_VB\w*\s(\S+_RB\w*\s)*\S+_V\wG
\S+_VH\w*\s(\S+_RB\w*\s)*\S+_V\wN
\S+_VB\w*\s(\S+_R\w*\s)*\S+_V\wN
词性标注(part-of-speech tagging,POS tagging)
语料库建设:采集、整理、分词、标注(语音、词性、句法、语义、元信息、质性等)
CLAWS(英语,多系统,收费)兰卡
TreeTagger(多语种,多系统,免费)德国
词性赋码集(POS Tagset)
CLAWS Tagset C7
V(动词): B(be动词); D (do); H (have)
软件:Pattern Builder(辅助编写正则表达式)
AntConc (检索正则表达式,支持Win & Mac和多语种)
PowerConc(检索正则表达式,支持Win 和英汉语)
Concordance Plot分别出现的次数
物主代词(\S+_PP\$|\S+_POS)
情态动词
\转义符,()作为整体,【】取值范围,l或者
. any character,\s空格,\S非空格,\w, letter, digit, underscore(word character), \W punctuation,space; \d, digit; \D, non-digit; \b, boundary; \u, uppercase; \l, lowercase
? 有或者无(0或者1);* 重复0次或更多;+重复1次或;更多
练*
请找出文本中所有be动词+动词ed的被动结构
\b(arelwerelarelislwas)\b (\S+ ) *\w+ed\b
\b(learnlburnldreamlspell*lsmell*)(edlt)\b
检索外置主语
it_PP\s(\S+_MD\s)*(\S+_VH\w*\s)*\S+_VB\w*\s(\S_RB\w*\s)*\S+_JJ
正则表达式逻辑符号
翻为及限定符号 意义
. any character
\s space
\S non-space
\w letter, digit, underscore
\W punctuation, space
\d digit
\D non-digit
\b boundary
\u uppercase
\l lowercase
逻辑符号 意义
\ 转义符
( ) 作为一个整体
[ ] 取值范围
| 或者
计量符号 意义
? 有或者无(0或者1)
* 重复0词或更多
+ 重复1次或更多
举例
1 请找出文本中所有be动词+动词-ed的被动结构
1)\b(am|is|are|was|were)\b \w+ed\b (中间不能插入副词)
2)我写的:\b(am|is|are|was|were)\b \w+ \w+ed\b
答案:\b(am|is|are|was|were)\b (\w+ )\w+ed\b(中间可以插入一个副词,但副词后面不能有逗号等标点符号)
3)\b(am|is|are|was|were)\b (\w+ )*\w+ed\b (中间可以没有或者有多个副词)
4)\b(am|is|are|was|were)\b (\S+ )*\w+ed\b (be动词和过去分词之间有多个副词,副词有逗号隔开)
2 请找出文本中所有被动词+动词-ed和动词-t的被动结构
\b(am|is|are|was|were)\b (\w+ed|t)
索引concordance, Key word in context, KWIC
索引行concordance lines
检索词/节点词search word/node
操作技术:索引、索引行分析、索引行整句保存、节点词挖空
操作软件:BFSU PowerConc、Sentence Collector、TestBuiIder
频数frequencies/occurrences
频率frequency
标准化频数normalization=频数/库容*1000
类fu,是不重复的
两个对比文本对比时注意形刺比
WordSmith 分析软件
词性赋码集
词性标注(part-of-speech tagging, POS tagging)
语料库标注 英语多系统收费
CLAWS TreeTagger多语种多系统免费
帮助我们写正则表达式的软件:Pattern Builder
正则表达式:17个
正则表达式:一些符号代表一些具体的范围操作
任务9:基本概念
Question
情态动词在小说中更常用,还是新闻中更常用?
有语法称英式英语习惯用I earnt, burnt, 而美式英语更常用丨earned, burned, 是这样吗?
基本概念
•频数(frequencies / occurrences)
即一个词在一个文本中出现的频率
频率(frequency)
即标准化的频数(normalization)=频数/库容*1000
100/2000*1000=50 100/10000*1000=10
•技术:检索词语并查看统计
•软件:BFSU PowerConc
应用举例
情态动词must在不同语体(例如小说、新闻和学术语体)中,使用频率有否差异?
不勾count punctuations 即不算标点符号
对多个词jin'xing
mean word length 平均词长
sentences 句子数,越少说明句子越长
mean in words 句子平均词数
看sttr比较两个文本的词汇密度和词汇丰富度
看1-letter words等 看 文本使用词汇难度
第二章 语料库方法一:检索词语
目录
1. 形符、类符合、形次比
2. 频数、频率
3. 索引、节点词
频数和频率
基本概念
频数(frequencies/occurences)
频率(frenquency)
标准化频数(normalization)软件:BUFS Powerconc
基本概念:
频数:出现的次数
频率:频数除以库容乘以1000?,1000可以随着库容的变化而变大或变下(不明白)
形次比(type token ratio)与词汇密度和丰富度相关。
标准形次比:STTR
wordsmith
语料库研究方法:
语料库驱动
基于语料库