语料库研究方法：基础与应用 - U讲堂

词目

词族

词簇

power conc

加载语料-N-gram list-count-设置length-count

[展开全文]

丙文 · 2021-09-21 · 基本概念、操作技术及应用举例：词族、词簇/词块/多词序列/N元组；生成词簇表、在线获取型式 0

频数frequencies/occurrences

频率frequency

标准化频数normalization=频数/库容*1000

[展开全文]

Angelag7 · 2020-08-25 · 基本概念、操作技术及应用举例：频数、频率；检索、频数统计与分布、频率计算 0

频数：100

频率：标准化的频数=频数/库容*1000（1000可变）

[展开全文]

邀问 · 2020-09-28 · 基本概念、操作技术及应用举例：频数、频率；检索、频数统计与分布、频率计算 0

1. 定义

David Cystal: 作为语言描写的起点; 用作语言研究的数据，来验证已有的假设。

John Sinclair: 语料库是真实的自然语言，但是需要严格的设计和取样（不是随意堆积的）。

Tony McEnery, 肖中华：机器可读的、真实语言（书面或口语），经过合理取样，具有较佳代表性的文本集合。

2. 类型

通用语料库：代表语言的整体，体量较大，题材丰富（综合大超市）

专用语料库：某个领域/语体的语言

学习者语料库：外语学习者产出的语言（中介语），观察特点，反馈教学

历时语料库：语言根据时间的变迁

平行语料库：两种语言完全对应（主要用于翻译研究）

可比语料库：语言变体之间的研究

[展开全文]

北贝1993 · 2022-07-18 · 语料库基本定义与基本类型 0

、翻译共性

3. 语料库研究方法

梁茂成：《理性主义、经验主义与语料库语言学》

——语料库语言学家：

具体的言语/语言行为

以描述语言事实为目标，特定语言的语法

定量研究方法、概率论和统计学

语境中获取的真实语料

——语料库研究范式：

语料库驱动：用于语言描写，归纳——描述

基于语料库：用于不同领域，假设——验证

4. 语料库方法能研究什么？

1998-2013 三大研究热点：

中介语研究：外语教学、学习者语料库（趋缓）

翻译研究：平行语料库、翻译共性（见长）

短语学研究：搭配、意义单位

2014-2020 五大主题（交叉研究）：

语言学：认知语言学、批评话语分析

语料库语言学（越来越热）：语义、语块、词块、隐喻

外语教学/二语习得（传统研究领域）

翻译（最热门）

计算语言学：大数据、人工智能、机器翻译

研究范围：

文学（新的、大有可为的切入点）

研究工具：

北外语料库语言学

c

[展开全文]

北贝1993 · 2022-07-18 · 语料库研究方法的属性、范围和工具 0

语料库研究方法：

语料库驱动

基于语料库

[展开全文]

Don668811w · 2020-07-13 · 语料库研究方法的属性、范围和工具 0

索引concordance, Key word in context, KWIC

索引行concordance lines

检索词/节点词search word/node

操作技术：索引、索引行分析、索引行整句保存、节点词挖空

操作软件：BFSU PowerConc、Sentence Collector、TestBuiIder

[展开全文]

Angelag7 · 2020-08-26 · 基本概念、操作技术及应用举例：索引、节点词；索引行分析、排序与提取 0

元字符（metacharacter）：有自己特殊的表达意义，不匹配真是的字符。

.

l

逻辑符号：

\ 转义符： \s \S \+

( )作为一个整体： \b（are|am|is）\b

[ ]取值范围：[abc], [a-z], [1-9]

计量符号：

?有或者无（0或者1）：top?(p可有可无）

*重复0次或更多

+重复1次或更多

[展开全文]

邀问 · 2020-09-29 · 基本概念、操作技术及应用举例：正则表达式之逻辑及计量性符号；范围及限定性综合检索 0

词性标注（part-of-speech tagging, POS tagging）

TreeTagger（多语种，多系统，免费）

AntConc（支持多语种）

[展开全文]

邀问 · 2020-09-29 · 基本概念及操作技术：词性赋码集；检索情态动词及所有格 0

第二章语料库方法一：检索词语

1. 引入：教学/学习中的疑问

2. 形符、类符、形次比

1）行符（token）：词

2）类符（type）：不重复出现的行符

Let's go let's go let'go now!

3）形次比（TTR, Type token ratio）：类符/形符，与词汇密度（le*cal density）、词汇丰富度（le*cal richness）紧密相关，较高的形次比能从一定程度上反映学生的词汇量及丰富程度，适用于一篇文章内部

Beispiel: 行：10，类：4，TTR=4/10*100%=40%, 词汇重复率=60%，可以推断出学生的词汇量较为有限

4）标准形次比（STTR, 每千词/百词TTR的平均值）：库容（形符数）不同的文本之间（因为文本越长，形次比可能越低，冠词the）

操作技术：WordSmith语料分析软件

3.频数、频率

4. 索引、节点词

[展开全文]

北贝1993 · 2022-07-19 · 基本概念、操作技术及应用举例：形符、类符、形次比；形类符统计、标准形次比自动计算 0

3. 频数、频率

1)频数（frequencies）: 一个词在语料库中出现的实际次数，

we：100/2000，100/10000，100是频数

2）频率(frequency): 频数的标准化=频数/库容*1000（根据库容灵活变化）

we：100/2000*1000=50，100/10000*1000=10

操作技术：

-技术：检索词语并查看统计

-软件：BFSU PowerCo'n'c

-应用：一个单词；批量单词

[展开全文]

北贝1993 · 2022-07-19 · 基本概念、操作技术及应用举例：频数、频率；检索、频数统计与分布、频率计算 0

4. 索引、节点词

1）索引（concordanc，key word in Contex，KWIC）：语境中的关键词；将包含关键词的句子罗列出来

2）索引行（concordance line）：列出来的句子

3）检索词/节点词（search word/node）:被查找的单词

4）中间为检索词，左右两侧的词也可以进行排序，从而得出检索词的不同搭配和含义

操作技术：

-技术：索引，索引行分析，索引行整句保存，节点词挖空

-软件：BFSU PowerConc，Sentence Collector, TestBuilder

[展开全文]

北贝1993 · 2022-07-19 · 基本概念、操作技术及应用举例：索引、节点词；索引行分析、排序与提取 0

第三章语料库方法二：检索复杂结构

1. 正则表达式（大范围/限定性检索）：用一些符号来匹配文本中的字符，将单词含义传达给计算机的媒介

2.操作技术：

-软件：EditPad Pro 文本查看及编辑器

3.

1）表达范围的符号：

.=任意字符

\s=空格

\S=非空格

\w=构词字符（所有的字母、数字。。。。）

\W=非构词字符（标点、空格）

\d=数字

\D=非数字

2）对字母进行限定性检索的符号：

\b=给字母（组合）前后加边界

\u=大写(case键检查)

\l=小写

2.词性赋码集（词类、格、时态、体、语态的检索）

[展开全文]

北贝1993 · 2022-07-20 · 基本概念及操作技术：正则表达式之范围及限定性符号；范围及限定性单一检索 0

判断某个差异是否到达显著性水平：

卡方检验（chi-square test）

库容：自变量

频数：因变量

常用检验方法：

对数似然率检验（loglikelihood test）

效应量（effect size）

[展开全文]

邀问 · 2020-09-30 · 基本概念、操作技术及应用实例：主题词表、关键性、观察语料及参照语料；获取主题词表、计算关键性 0

3）元字符：8个标点

.=任意字符

-逻辑符号：

\=转义符（\+字母后拥有了特定含义；\+具有特定意义的符号后就没有任何意义了）

( )=作为一个整体（经常与分隔符连用）

[ ]=取值范围

| =分隔符（或者）

-计量符号：

?=放在字母后，表示可有可无

*=放在字母后，表示该字母可以重复0次以上

+=放在字母后，表示该字母可以重复1次以上

Beispiel：to?=t,to

to*=t,to,too

to+=to,too

[展开全文]

北贝1993 · 2022-07-20 · 基本概念、操作技术及应用举例：正则表达式之逻辑及计量性符号；范围及限定性综合检索 0

2.词性赋码集（POS Tageset）

1）词性标注（part-of-speech tagging, POS tagging）

-语料库建设：采集、整理、分词、标注（语音、词性、句法、语义、元信息、质性等）

软件：Tree Tagger （多语种、多系统、免费）

2）词性赋码集：不同标注软件中对同一单词的词性标注是不同的，因为他们的词性赋码集不同

赋码及含义：

3）操作技术：

-软件：Pattern Builder （辅助编写正则表达式）

AntConc （检索正则表达式，支持多系统，多语种）

PowerConc（检索正则表达式，支持win，英汉语）

[展开全文]

北贝1993 · 2022-07-21 · 基本概念及操作技术：词性赋码集；检索情态动词及所有格 0

[展开全文]

Lynnzfc · 2020-08-09 · 基本概念、操作技术及应用举例：索引、节点词；索引行分析、排序与提取 0

形次比（type token ratio）与词汇密度和丰富度相关。

标准形次比：STTR

wordsmith

[展开全文]

ubarbara_zhhlub · 2020-07-14 · 基本概念、操作技术及应用举例：形符、类符、形次比；形类符统计、标准形次比自动计算 0

正则表达式逻辑符号

翻为及限定符号意义

. any character

\s space

\S non-space

\w letter, digit, underscore

\W punctuation, space

\d digit

\D non-digit

\b boundary

\u uppercase

\l lowercase

逻辑符号意义

\ 转义符

( ) 作为一个整体

[ ] 取值范围

| 或者

计量符号意义

？有或者无（0或者1）

* 重复0词或更多

+ 重复1次或更多

举例

1 请找出文本中所有be动词+动词-ed的被动结构

1）\b(am|is|are|was|were)\b \w+ed\b (中间不能插入副词)

2）我写的：\b(am|is|are|was|were)\b \w+ \w+ed\b

答案：\b(am|is|are|was|were)\b (\w+ )\w+ed\b（中间可以插入一个副词,但副词后面不能有逗号等标点符号）

3）\b(am|is|are|was|were)\b (\w+ )*\w+ed\b （中间可以没有或者有多个副词）

4）\b(am|is|are|was|were)\b (\S+ )*\w+ed\b (be动词和过去分词之间有多个副词，副词有逗号隔开)

2 请找出文本中所有被动词+动词-ed和动词-t的被动结构

\b(am|is|are|was|were)\b (\w+ed|t)

[展开全文]

Angelag7 · 2020-08-28 · 基本概念、操作技术及应用举例：正则表达式之逻辑及计量性符号；范围及限定性综合检索 0

第四章语料库研究方法三：获取搭配形式

1. 基本概念

1）搭配 collocation：节点词前后的搭配（对理解具体语境中的词意很重要）

2）类连接 colligation：要对搭配进行分类（形式/词类）总结（区分词义、词性，对词典编辑和外语教学都很重要--介词搭配）

3）语义倾向 semantic preference: 对搭配词的语义层面、态度层面进行归纳

4）语义韵 semantic prosody：分为积极，消极，中性

[展开全文]

北贝1993 · 2022-07-24 · 基本概念：搭配、类联接、语义倾向、语义韵和扩展意义单位 0

授课教师

最新学员

学员动态