语料库研究方法：基础与应用 - U讲堂

(查看、调试）： EditPad Pro 大范围检索（所有字符、空格、构词字符、数字）；限定性检索（边界、大小写）

（辅助编写）Pattern Builder

（检索）AntConc; Power Conc

（词类、格、时态、体、语态的检索）

\S+_VB\w*\s(\S+_RB\w*\s)*\S+_V\wG

\S+_VH\w*\s(\S+_RB\w*\s)*\S+_V\wN

\S+_VB\w*\s(\S+_R\w*\s)*\S+_V\wN

[展开全文]

feedmind · 2020-09-11 · 操作技术：检索进行时态、完成体、被动语态及外置主语 0

词性标注（part-of-speech tagging,POS tagging）

语料库建设：采集、整理、分词、标注（语音、词性、句法、语义、元信息、质性等）

CLAWS（英语，多系统，收费）兰卡

TreeTagger（多语种，多系统，免费）德国

词性赋码集(POS Tagset)

CLAWS Tagset C7

V(动词）： B(be动词); D (do); H (have)

软件：Pattern Builder（辅助编写正则表达式）

AntConc （检索正则表达式，支持Win & Mac和多语种）

PowerConc（检索正则表达式，支持Win 和英汉语）

Concordance Plot分别出现的次数

物主代词(\S+_PP\$|\S+_POS)

情态动词

[展开全文]

feedmind · 2020-09-11 · 基本概念及操作技术：词性赋码集；检索情态动词及所有格 0

\转义符，（）作为整体，【】取值范围，l或者

. any character，\s空格，\S非空格，\w, letter, digit, underscore(word character), \W punctuation,space; \d, digit; \D, non-digit; \b, boundary; \u, uppercase; \l, lowercase

? 有或者无（0或者1）;* 重复0次或更多；+重复1次或；更多

练*

请找出文本中所有be动词+动词ed的被动结构

\b(arelwerelarelislwas)\b (\S+ ) *\w+ed\b

\b(learnlburnldreamlspell*lsmell*)(edlt)\b

[展开全文]

feedmind · 2020-09-11 · 基本概念、操作技术及应用举例：正则表达式之逻辑及计量性符号；范围及限定性综合检索 0

检索外置主语

it_PP\s(\S+_MD\s)*(\S+_VH\w*\s)*\S+_VB\w*\s(\S_RB\w*\s)*\S+_JJ

[展开全文]

Angelag7 · 2020-09-02 · 操作技术：检索进行时态、完成体、被动语态及外置主语 0

正则表达式逻辑符号

翻为及限定符号意义

. any character

\s space

\S non-space

\w letter, digit, underscore

\W punctuation, space

\d digit

\D non-digit

\b boundary

\u uppercase

\l lowercase

逻辑符号意义

\ 转义符

( ) 作为一个整体

[ ] 取值范围

| 或者

计量符号意义

？有或者无（0或者1）

* 重复0词或更多

+ 重复1次或更多

举例

1 请找出文本中所有be动词+动词-ed的被动结构

1）\b(am|is|are|was|were)\b \w+ed\b (中间不能插入副词)

2）我写的：\b(am|is|are|was|were)\b \w+ \w+ed\b

答案：\b(am|is|are|was|were)\b (\w+ )\w+ed\b（中间可以插入一个副词,但副词后面不能有逗号等标点符号）

3）\b(am|is|are|was|were)\b (\w+ )*\w+ed\b （中间可以没有或者有多个副词）

4）\b(am|is|are|was|were)\b (\S+ )*\w+ed\b (be动词和过去分词之间有多个副词，副词有逗号隔开)

2 请找出文本中所有被动词+动词-ed和动词-t的被动结构

\b(am|is|are|was|were)\b (\w+ed|t)

[展开全文]

Angelag7 · 2020-08-28 · 基本概念、操作技术及应用举例：正则表达式之逻辑及计量性符号；范围及限定性综合检索 0

索引concordance, Key word in context, KWIC

索引行concordance lines

检索词/节点词search word/node

操作技术：索引、索引行分析、索引行整句保存、节点词挖空

操作软件：BFSU PowerConc、Sentence Collector、TestBuiIder

[展开全文]

Angelag7 · 2020-08-26 · 基本概念、操作技术及应用举例：索引、节点词；索引行分析、排序与提取 0

频数frequencies/occurrences

频率frequency

标准化频数normalization=频数/库容*1000

[展开全文]

Angelag7 · 2020-08-25 · 基本概念、操作技术及应用举例：频数、频率；检索、频数统计与分布、频率计算 0

[展开全文]

rosslee551 · 2020-08-10 · 平行语料库常用工具与语料网站汇总 0

[展开全文]

Lynnzfc · 2020-08-09 · 基本概念、操作技术及应用举例：索引、节点词；索引行分析、排序与提取 0

类fu,是不重复的

两个对比文本对比时注意形刺比

WordSmith 分析软件

[展开全文]

qianzhihe403 · 2020-08-01 · 基本概念、操作技术及应用举例：形符、类符、形次比；形类符统计、标准形次比自动计算 0

词性赋码集

词性标注（part-of-speech tagging, POS tagging）

语料库标注英语多系统收费

CLAWS TreeTagger多语种多系统免费

帮助我们写正则表达式的软件：Pattern Builder

[展开全文]

菲kz5 · 2020-07-29 · 基本概念及操作技术：词性赋码集；检索情态动词及所有格 0

正则表达式：17个

[展开全文]

菲kz5 · 2020-07-29 · 基本概念、操作技术及应用举例：正则表达式之逻辑及计量性符号；范围及限定性综合检索 0

正则表达式：一些符号代表一些具体的范围操作

[展开全文]

菲kz5 · 2020-07-29 · 基本概念及操作技术：正则表达式之范围及限定性符号；范围及限定性单一检索 0

任务9：基本概念

Question

情态动词在小说中更常用，还是新闻中更常用？

有语法称英式英语习惯用I earnt, burnt, 而美式英语更常用丨earned, burned, 是这样吗？

基本概念

•频数（frequencies / occurrences)

即一个词在一个文本中出现的频率

频率(frequency)
即标准化的频数（normalization)=频数/库容*1000

100/2000*1000=50 100/10000*1000=10

•技术：检索词语并查看统计
•软件：BFSU PowerConc

应用举例

情态动词must在不同语体（例如小说、新闻和学术语体）中，使用频率有否差异？

不勾count punctuations 即不算标点符号

对多个词jin'xing

[展开全文]

Iris.wang · 2020-07-20 · 基本概念、操作技术及应用举例：频数、频率；检索、频数统计与分布、频率计算 0

mean word length 平均词长

sentences 句子数，越少说明句子越长

mean in words 句子平均词数

看sttr比较两个文本的词汇密度和词汇丰富度

看1-letter words等看文本使用词汇难度

[展开全文]

Iris.wang · 2020-07-20 · 基本概念、操作技术及应用举例：形符、类符、形次比；形类符统计、标准形次比自动计算 0

第二章语料库方法一：检索词语

1. 形符、类符合、形次比

基本概念：

形符：token （语言单位，相当于“词”）
类符：type (不能重复计算的形符）
e.g: Let's go let's go now.（形符：10；类符： 4）
形次比： TTR, type token ration 类符/形符*100%=40% ; 与词汇密度 lexical density 和词汇丰富度lexical richness紧密相关。较高的形次比可以一定程度上体现学生的词汇量和丰富程度。（库容（形符数）不同的文本如何对比形次比，文本越长，形次比可能越低，因为功能词多次重复）
标准形次比：STTR, standardized TTR) （每千词形次比的均值，1000词是个通用参考数值，对比几百字的学生作文，可以将1000换为100即可）
软件：WordSmith 语料分析软件
例子：大学生的英语作文，会真的比高中生作文词汇量更加丰富吗？如何验证呢？

2. 频数、频率

3. 索引、节点词

[展开全文]

花之品 · 2020-07-21 · 基本概念、操作技术及应用举例：形符、类符、形次比；形类符统计、标准形次比自动计算 0

频数和频率

基本概念

频数（frequencies/occurences）

频率（frenquency）

标准化频数（normalization）软件：BUFS Powerconc

[展开全文]

mdodom · 2020-07-17 · 试看课时：频数和频率的基本概念及操作应用 0

基本概念：