语料库研究方法:基础与应用

语料库研究方法:基础与应用
466人加入学习
(16人评价)
价格 ¥399.00
学时 6.0
学时 6.0
学习有效期 180 天(随到随学)
会员免费学 购买课程

P柏拉图:变化 不可靠 真理 理想模型 回溯

自上而下 理性演绎

乔姆斯基:在沙发中思考的语言学家

A亚里士多德:现实 经验世界 归纳真理

自下而上 经验归纳

实地语言学家

文章:梁茂成 《理性主义、经验主义与语料库语言学》 

[展开全文]

Antconc: word list,,start; tool preference, lemma, apply, start; tool preference, use GSL

Taxsego词云

[展开全文]

基本类型

1. general corpus

英国国家语料库 BNC、现代美语语料库 COCA

2. specialized corpus

学术语料库 MICASE&MICUSP、儿童语料库PATTIE (吉创建的儿童读物及视听材料的语料库)、商英BEC 

3. 学习者语料库 (learner corpus):

如中国学习者语料库CLEC(桂诗春 、SWECCL(文秋芳 口、笔语语料库)、英语学习者语料库ICLE

4. 历时语料库(diachronic corpus):

如布朗家族语料库 Brown Family、 美语COHA、赫尔辛基 HELSINKI

5. 平行语料库(parallel corpus)

如欧洲议会语料库 Europarl 、TED演讲语料库、 Babel 语料库

6. 可比语料库( comparable corpus):

如 Crown、 CLOB、 ToRCH2009 语料库、国际英语语料库 ICE 

[展开全文]

语料库网站:

工具汇总:

1.  Tools for Corpus  Linguistics: 

    https://www.corpus-analysis.com/ 

2. 

 

[展开全文]

 a ollection of naturally-occuruing langage text. chosen to characterize a state or variety of a language.  自然、需要设计,有明确的目的性。

机器可读;真实语言;取样合理;代表性强  (需要合理设计,不同语言的比例)

常见类型:

通用语料库

BNC,COCA

专用语料库
学术预料库: MICASE & MICUSP,儿童预料库 PATTIE,商英 BEC

学习者语料库

CLEC,SWECCL (口笔语料),英语学习者国际语料库 ICLE

历时语料库:

Brown Family,   COHA (1801-2000),  Helsinki 

平行语料库

Europarl (欧洲议会语料库)

Ted 演讲语料库

Babel语料库

可比语料库

Crown,Clob Torch 

 

[展开全文]

频数 

频率是标准化的频数,公式为频数/库容*1000(或者100也可以根据容量gai)

[展开全文]

理性演绎回溯论 

经验主义

理性主义、经验主义与语料库语言学《中国外语》

梁茂成 语料库语言学研究的两种范式:渊源、分歧及前景

基于

[展开全文]

2语料库应该经过严格的设计和取样,应该是基于自然的语言

机器可读

真实语言

取样合理

代表性佳

语料库类型

1、 通用语料库

2、专用语料库

3、学*者语料库

4、历时语料库

5、平行语料库(涉及到原文和译文)

6、可比语料库

[展开全文]

(基本概念

1. 形符 token(词的数量)

2. 类符 type(不重复出现的词)

3. 形次比 = 类符/形符*100% 

形次比与 词汇密度(le*cal density )及词汇丰富度(le*cal richness)相关

4. 标准形次比 STTR 每千词形次比的均值

+++++形次比越高,词汇越丰富

 

使用软件:wordSmith

wordlist-file-new-选择文件-ok-make a wordlist now-下方菜单statistics

[展开全文]

频数 

频率:标准化的频数= 频数/库容 *1000(可更改)

bfsu-files-选择打开-右侧设置区域stats,取消punctuation-左上角concordance-文本框输入词汇后检索-stats-显示总频数

之后勾选最上面的distribution-点击table

save 保存-复制到excel 去计算频率

 

 

多词检索前面步骤 一直到concordance

选择batch- load list -  后面步骤一致

 

[展开全文]

索引 (concordance)

索引行(concordance lines)

检索词/节点词(search word/node)

操作技术

技术:索引、索引行分析、索引行整句保存、节点词挖空

步骤:前面一样  输入词汇,点击search,点击sort是自定义排序

点击simple sort 是简单排序

l1 指的是按照左侧第一个词字母排序

r1是按照右侧第一个词字母排序

重新点击loop 在选择就是重新排序

可以设置多级排序:settings-concordance-第一级排序-第二级排序-一共五级排序

再点击sort

就是按照刚刚设置的方式排序,就用sentence collector 软件

选用语料-选用sentence collector-

 

 

 

如果是要观察完整的一句话,就用

 

[展开全文]

复杂检索的两种类型

1. 正则表达式  大范围限定(某一大范围内的)检索

2. 词性赋码集

如何看正则表达式的效果:edit pro

optiona-configure file types-text documnt-editor-edit-courrier new-colors and ...-customize-高亮取消下划线

 

 

[展开全文]

1. 正则表达式的标注软件

2. 正则表达书辅助编写(相当于检索对应的正则表达式怎么写)

3. 有了正则表达式,就可以进行检索

(1)antconc

(2)powerconc

[展开全文]

editpad pro 查看调试正则表达式

pattern builder 辅助编写正则表达式

antconc 和power conc 检索正则表达式

[展开全文]