语料库研究方法:基础与应用

语料库研究方法:基础与应用
466人加入学习
(16人评价)
价格 ¥399.00
学时 6.0
学时 6.0
学习有效期 180 天(随到随学)
会员免费学 购买课程

频数frequencies/occurrences

频率frequency

标准化频数normalization=频数/库容*1000

[展开全文]

1. 定义

David Cystal: 作为语言描写的起点; 用作语言研究的数据,来验证已有的假设。

John Sinclair: 语料库是真实的自然语言,但是需要严格的设计和取样(不是随意堆积的)。

Tony McEnery, 肖中华:机器可读的、真实语言(书面或口语),经过合理取样,具有较佳代表性的文本集合。

2. 类型

通用语料库:代表语言的整体,体量较大,题材丰富(综合大超市)

专用语料库:某个领域/语体的语言

学习者语料库:外语学习者产出的语言(中介语),观察特点,反馈教学

历时语料库:语言根据时间的变迁

平行语料库:两种语言完全对应(主要用于翻译研究)

可比语料库:语言变体之间的研究

 

[展开全文]

、翻译共性

3. 语料库研究方法

梁茂成:《理性主义、经验主义与语料库语言学》

——语料库语言学家:

具体的言语/语言行为

以描述语言事实为目标,特定语言的语法

定量研究方法、概率论和统计学

语境中获取的真实语料

 ——语料库研究范式:

语料库驱动:用于语言描写,归纳——描述

基于语料库:用于不同领域,假设——验证

4. 语料库方法能研究什么?

1998-2013 三大研究热点:

中介语研究:外语教学、学习者语料库(趋缓)

翻译研究:平行语料库、翻译共性(见长)

短语学研究:搭配、意义单位

2014-2020 五大主题(交叉研究):

语言学:认知语言学、批评话语分析

语料库语言学(越来越热):语义、语块、词块、隐喻

外语教学/二语习得(传统研究领域)

翻译(最热门)

计算语言学:大数据、人工智能、机器翻译

 

研究范围:

文学(新的、大有可为的切入点)

 

研究工具:

北外语料库语言学

c

 

 

 

[展开全文]

语料库研究方法:

语料库驱动

基于语料库

 

 

[展开全文]

索引concordance, Key word in context, KWIC

索引行concordance lines

检索词/节点词search word/node 

操作技术:索引、索引行分析、索引行整句保存、节点词挖空

操作软件:BFSU PowerConc、Sentence Collector、TestBuiIder

[展开全文]

元字符(metacharacter):有自己特殊的表达意义,不匹配真是的字符。

.

l

逻辑符号:

\ 转义符: \s \S \+

( )作为一个整体: \b(are|am|is)\b

[ ]取值范围:[abc], [a-z], [1-9]

计量符号:

?有或者无(0或者1):top?(p可有可无)

*重复0次或更多

+重复1次或更多

[展开全文]

词性标注(part-of-speech tagging, POS tagging)

TreeTagger(多语种,多系统,免费)

AntConc(支持多语种)

 

[展开全文]

第二章 语料库方法一:检索词语

1. 引入:教学/学习中的疑问

2. 形符、类符、形次比

1)行符(token):词

2)类符(type):不重复出现的行符

Let's go let's go let'go now!

3)形次比(TTR, Type token ratio):类符/形符,与词汇密度(le*cal density)、词汇丰富度(le*cal richness)紧密相关,较高的形次比能从一定程度上反映学生的词汇量及丰富程度,适用于一篇文章内部

Beispiel: 行:10,类:4,TTR=4/10*100%=40%, 词汇重复率=60%,可以推断出学生的词汇量较为有限

4)标准形次比(STTR, 每千词/百词TTR的平均值):库容(形符数)不同的文本之间(因为文本越长,形次比可能越低,冠词the)

操作技术:WordSmith语料分析软件

3.频数、频率

4. 索引、节点词

[展开全文]

3. 频数、频率

1)频数(frequencies): 一个词在语料库中出现的实际次数,

we:100/2000,100/10000,100是频数

2)频率(frequency): 频数的标准化=频数/库容*1000(根据库容灵活变化)

we:100/2000*1000=50,100/10000*1000=10

操作技术:

-技术:检索词语并查看统计

-软件 :BFSU PowerCo'n'c

-应用:一个单词;批量单词

[展开全文]

4. 索引、节点词

1)索引(concordanc,key word in Contex,KWIC):语境中的关键词;将包含关键词的句子罗列出来

2)索引行(concordance line):列出来的句子

3)检索词/节点词(search word/node):被查找的单词

4)中间为检索词,左右两侧的词也可以进行排序,从而得出检索词的不同搭配和含义

操作技术:

-技术:索引,索引行分析,索引行整句保存,节点词挖空

-软件:BFSU PowerConc,Sentence Collector, TestBuilder

 

[展开全文]

第三章 语料库方法二:检索复杂结构

1. 正则表达式(大范围/限定性检索):用一些符号来匹配文本中的字符,将单词含义传达给计算机的媒介

2.操作技术:

-软件:EditPad Pro 文本查看及编辑器

3.

1)表达范围的符号:

.=任意字符

\s=空格

\S=非空格

\w=构词字符(所有的字母、数字。。。。)

\W=非构词字符(标点、空格)

\d=数字

\D=非数字

2)对字母进行限定性检索的符号:

\b=给字母(组合)前后加边界

\u=大写(case键检查)

\l=小写

2.词性赋码集(词类、格、时态、体、语态的检索)

[展开全文]

判断某个差异是否到达显著性水平:

卡方检验(chi-square test)

库容:自变量

频数:因变量

常用检验方法:

对数似然率检验(loglikelihood test)

效应量(effect size)

[展开全文]

 3)元字符:8个标点

.=任意字符

-逻辑符号:

\=转义符(\+字母后拥有了特定含义;\+具有特定意义的符号后就没有任何意义了)

( )=作为一个整体(经常与分隔符连用)

[ ]=取值范围

| =分隔符(或者)

-计量符号:

?=放在字母后,表示可有可无

*=放在字母后,表示该字母可以重复0次以上

+=放在字母后,表示该字母可以重复1次以上

Beispiel:to?=t,to

to*=t,to,too

to+=to,too

 

[展开全文]

2.词性赋码集 (POS Tageset)

1)词性标注(part-of-speech tagging, POS tagging)

-语料库建设:采集、整理、分词、标注(语音、词性、句法、语义、元信息、质性等)

软件:Tree Tagger (多语种、多系统、免费)

2)词性赋码集:不同标注软件中对同一单词的词性标注是不同的,因为他们的词性赋码集不同

赋码及含义:

3)操作技术:

-软件:Pattern  Builder (辅助编写正则表达式)

AntConc (检索正则表达式,支持多系统,多语种)

PowerConc(检索正则表达式,支持win,英汉语)

[展开全文]

形次比(type token ratio)与词汇密度和丰富度相关。

标准形次比:STTR 

wordsmith 

[展开全文]

正则表达式逻辑符号

翻为及限定符号     意义

.                         any character

\s                       space

\S                       non-space

\w                      letter, digit, underscore

\W                     punctuation, space

\d                      digit

\D                      non-digit

\b                      boundary

\u                       uppercase

\l                        lowercase

逻辑符号          意义

\                     转义符

( )                    作为一个整体

[ ]                     取值范围

|                        或者

 

计量符号             意义

?                  有或者无(0或者1)

*                    重复0词或更多

+                   重复1次或更多

举例

1 请找出文本中所有be动词+动词-ed的被动结构

1)\b(am|is|are|was|were)\b \w+ed\b (中间不能插入副词)

2)我写的:\b(am|is|are|was|were)\b \w+ \w+ed\b

答案:\b(am|is|are|was|were)\b (\w+ )\w+ed\b(中间可以插入一个副词,但副词后面不能有逗号等标点符号) 

3)\b(am|is|are|was|were)\b (\w+ )*\w+ed\b (中间可以没有或者有多个副词)

4)\b(am|is|are|was|were)\b (\S+ )*\w+ed\b (be动词和过去分词之间有多个副词,副词有逗号隔开)

2  请找出文本中所有被动词+动词-ed和动词-t的被动结构

\b(am|is|are|was|were)\b (\w+ed|t)

[展开全文]

第四章 语料库研究方法三:获取搭配形式

1. 基本概念

1)搭配 collocation:节点词前后的搭配(对理解具体语境中的词意很重要)

2)类连接 colligation:要对搭配进行分类(形式/词类)总结(区分词义、词性,对词典编辑和外语教学都很重要--介词搭配)

3)语义倾向 semantic  preference: 对搭配词的语义层面、态度层面进行归纳

4)语义韵 semantic prosody:分为积极,消极,中性

[展开全文]