语料库研究方法:基础与应用

语料库研究方法:基础与应用
466人加入学习
(16人评价)
价格 ¥399.00
学时 6.0
学时 6.0
学习有效期 180 天(随到随学)
会员免费学 购买课程

1. 定义

David Cystal: 作为语言描写的起点; 用作语言研究的数据,来验证已有的假设。

John Sinclair: 语料库是真实的自然语言,但是需要严格的设计和取样(不是随意堆积的)。

Tony McEnery, 肖中华:机器可读的、真实语言(书面或口语),经过合理取样,具有较佳代表性的文本集合。

2. 类型

通用语料库:代表语言的整体,体量较大,题材丰富(综合大超市)

专用语料库:某个领域/语体的语言

学习者语料库:外语学习者产出的语言(中介语),观察特点,反馈教学

历时语料库:语言根据时间的变迁

平行语料库:两种语言完全对应(主要用于翻译研究)

可比语料库:语言变体之间的研究

 

[展开全文]

editpad pro 查看调试正则表达式

pattern builder 辅助编写正则表达式

antconc 和power conc 检索正则表达式

[展开全文]

1. 正则表达式的标注软件

2. 正则表达书辅助编写(相当于检索对应的正则表达式怎么写)

3. 有了正则表达式,就可以进行检索

(1)antconc

(2)powerconc

[展开全文]

复杂检索的两种类型

1. 正则表达式  大范围限定(某一大范围内的)检索

2. 词性赋码集

如何看正则表达式的效果:edit pro

optiona-configure file types-text documnt-editor-edit-courrier new-colors and ...-customize-高亮取消下划线

 

 

[展开全文]

索引 (concordance)

索引行(concordance lines)

检索词/节点词(search word/node)

操作技术

技术:索引、索引行分析、索引行整句保存、节点词挖空

步骤:前面一样  输入词汇,点击search,点击sort是自定义排序

点击simple sort 是简单排序

l1 指的是按照左侧第一个词字母排序

r1是按照右侧第一个词字母排序

重新点击loop 在选择就是重新排序

可以设置多级排序:settings-concordance-第一级排序-第二级排序-一共五级排序

再点击sort

就是按照刚刚设置的方式排序,就用sentence collector 软件

选用语料-选用sentence collector-

 

 

 

如果是要观察完整的一句话,就用

 

[展开全文]

频数 

频率:标准化的频数= 频数/库容 *1000(可更改)

bfsu-files-选择打开-右侧设置区域stats,取消punctuation-左上角concordance-文本框输入词汇后检索-stats-显示总频数

之后勾选最上面的distribution-点击table

save 保存-复制到excel 去计算频率

 

 

多词检索前面步骤 一直到concordance

选择batch- load list -  后面步骤一致

 

[展开全文]

(基本概念

1. 形符 token(词的数量)

2. 类符 type(不重复出现的词)

3. 形次比 = 类符/形符*100% 

形次比与 词汇密度(le*cal density )及词汇丰富度(le*cal richness)相关

4. 标准形次比 STTR 每千词形次比的均值

+++++形次比越高,词汇越丰富

 

使用软件:wordSmith

wordlist-file-new-选择文件-ok-make a wordlist now-下方菜单statistics

[展开全文]

2语料库应该经过严格的设计和取样,应该是基于自然的语言

机器可读

真实语言

取样合理

代表性佳

语料库类型

1、 通用语料库

2、专用语料库

3、学*者语料库

4、历时语料库

5、平行语料库(涉及到原文和译文)

6、可比语料库

[展开全文]

频数 

频率是标准化的频数,公式为频数/库容*1000(或者100也可以根据容量gai)

[展开全文]

复杂概念简洁清晰易懂;使用类别手法,在今后的教学中可以借鉴;

 

[展开全文]

语料库网站:

工具汇总:

1.  Tools for Corpus  Linguistics: 

    https://www.corpus-analysis.com/ 

2. 

 

[展开全文]

判断某个差异是否到达显著性水平:

卡方检验(chi-square test)

库容:自变量

频数:因变量

常用检验方法:

对数似然率检验(loglikelihood test)

效应量(effect size)

[展开全文]

词性标注(part-of-speech tagging, POS tagging)

TreeTagger(多语种,多系统,免费)

AntConc(支持多语种)

 

[展开全文]

元字符(metacharacter):有自己特殊的表达意义,不匹配真是的字符。

.

l

逻辑符号:

\ 转义符: \s \S \+

( )作为一个整体: \b(are|am|is)\b

[ ]取值范围:[abc], [a-z], [1-9]

计量符号:

?有或者无(0或者1):top?(p可有可无)

*重复0次或更多

+重复1次或更多

[展开全文]

Antconc: word list,,start; tool preference, lemma, apply, start; tool preference, use GSL

Taxsego词云

[展开全文]

P柏拉图:变化 不可靠 真理 理想模型 回溯

自上而下 理性演绎

乔姆斯基:在沙发中思考的语言学家

A亚里士多德:现实 经验世界 归纳真理

自下而上 经验归纳

实地语言学家

文章:梁茂成 《理性主义、经验主义与语料库语言学》 

[展开全文]