语料库研究方法:基础与应用

语料库研究方法:基础与应用
466人加入学习
(16人评价)
价格 ¥399.00
学时 6.0
学时 6.0
学习有效期 180 天(随到随学)
会员免费学 购买课程

1. 定义

David Cystal: 作为语言描写的起点; 用作语言研究的数据,来验证已有的假设。

John Sinclair: 语料库是真实的自然语言,但是需要严格的设计和取样(不是随意堆积的)。

Tony McEnery, 肖中华:机器可读的、真实语言(书面或口语),经过合理取样,具有较佳代表性的文本集合。

2. 类型

通用语料库:代表语言的整体,体量较大,题材丰富(综合大超市)

专用语料库:某个领域/语体的语言

学习者语料库:外语学习者产出的语言(中介语),观察特点,反馈教学

历时语料库:语言根据时间的变迁

平行语料库:两种语言完全对应(主要用于翻译研究)

可比语料库:语言变体之间的研究

 

[展开全文]

2语料库应该经过严格的设计和取样,应该是基于自然的语言

机器可读

真实语言

取样合理

代表性佳

语料库类型

1、 通用语料库

2、专用语料库

3、学*者语料库

4、历时语料库

5、平行语料库(涉及到原文和译文)

6、可比语料库

[展开全文]

 a ollection of naturally-occuruing langage text. chosen to characterize a state or variety of a language.  自然、需要设计,有明确的目的性。

机器可读;真实语言;取样合理;代表性强  (需要合理设计,不同语言的比例)

常见类型:

通用语料库

BNC,COCA

专用语料库
学术预料库: MICASE & MICUSP,儿童预料库 PATTIE,商英 BEC

学习者语料库

CLEC,SWECCL (口笔语料),英语学习者国际语料库 ICLE

历时语料库:

Brown Family,   COHA (1801-2000),  Helsinki 

平行语料库

Europarl (欧洲议会语料库)

Ted 演讲语料库

Babel语料库

可比语料库

Crown,Clob Torch 

 

[展开全文]

基本类型

1. general corpus

英国国家语料库 BNC、现代美语语料库 COCA

2. specialized corpus

学术语料库 MICASE&MICUSP、儿童语料库PATTIE (吉创建的儿童读物及视听材料的语料库)、商英BEC 

3. 学习者语料库 (learner corpus):

如中国学习者语料库CLEC(桂诗春 、SWECCL(文秋芳 口、笔语语料库)、英语学习者语料库ICLE

4. 历时语料库(diachronic corpus):

如布朗家族语料库 Brown Family、 美语COHA、赫尔辛基 HELSINKI

5. 平行语料库(parallel corpus)

如欧洲议会语料库 Europarl 、TED演讲语料库、 Babel 语料库

6. 可比语料库( comparable corpus):

如 Crown、 CLOB、 ToRCH2009 语料库、国际英语语料库 ICE 

[展开全文]