语料库研究方法:基础与应用

语料库研究方法:基础与应用
466人加入学习
(16人评价)
价格 ¥399.00
学时 6.0
学时 6.0
学习有效期 180 天(随到随学)
会员免费学 购买课程

2.操作技术

1)技术:计算搭配强度;生成类连接

2)软件:PowerConc, BFSU Calligator, Sketch Engine(多语种语料)

[展开全文]

3. 应用举例

外语教学——数据驱动学习(Data driven learning DDL): 常用搭配检索,词义辨析(Writefull)

[展开全文]

基本概念:

频数:出现的次数

频率:频数除以库容乘以1000?,1000可以随着库容的变化而变大或变下(不明白)

 

[展开全文]

第五章 语料库方法四:生成词表

1.词表、词形还原表、停用词表

1)词表(Word list):词汇列表,把语料库中每个词出现的频数/频率列成一个清单

2)词性还原表(lemma list): 同一个语言原型的不同变化形式(was,is-->be)

3)停用词表(stop list):把屏蔽不看的词列成表格

4)操作技术:生成词表、词形还原表、停用词表、词云

软件:AntConc,Tagxedo(在线)

5)如何得到学术文体的常见词表?

6)如何得到最近新闻的热点词汇?

[展开全文]

2. 词族、词簇、词块、多词序列、N元组

1)词目(lemma):词位(lexeme)原形+所有屈折形式,不包括派生词

Bsp.:  番茄-->番茄酱、番茄块。。。。

2)词族(word family):屈折形式+派生形式

Bsp.: 

3)词簇(word cluster)

同义词:词块/预制语块/多词单位/N元组:连续多个词构成的序列

词簇与固定搭配的区别:one of the是高频词簇,但不是语义完整的语法结构;词簇表给寻找短语和习语提供了路径

搭配多考察两个词之间的关系;词簇考察多个词

[展开全文]

第六章 语料库方法五:使用分级词表及生成主题词

词表对语言学习和大纲编写有较强的指导作用;词汇大纲的实质就是要充分利用从语料库中提取出来的高频词表.

但词汇大纲对语料库中语言的难度没有很好控制,太大太具颠覆性,教学实用性不强。

1.分级词表:对两个语料库进行语料难度对比分析

1)英语常见分级词表:GSL,AWL(用于判断词语难度的基础词表——底表base word list), 四六级词表

2)操作技术:对比语料难度,生成子语料库

      软件:Range, AntWordProfiler,Sub-corpus Creator

3)应用举例:美国纽约时报和英国卫报的新闻,哪个更简单适合低年级学生阅读?

4)标记超纲词汇:BFSU Sentece Segment, BFSU NewWords Marker, BFSU Sentence Collector

5)标记大纲词汇:Antquicktools(在线)

 

[展开全文]

复杂概念简洁清晰易懂;使用类别手法,在今后的教学中可以借鉴;

 

[展开全文]

频数和频率

基本概念

频数(frequencies/occurences)

频率(frenquency)

标准化频数(normalization)软件:BUFS Powerconc

[展开全文]

第二章 语料库方法一:检索词语

目录

1. 形符、类符合、形次比

  1. 基本概念:
  • 形符:token (语言单位,相当于“词”) 
  • 类符:type (不能重复计算的形符)
  • e.g: Let's go    let's go now.(形符:10;类符: 4)
  • 形次比: TTR, type token ration 类符/形符*100%=40% ; 与词汇密度 lexical density 和词汇丰富度lexical richness紧密相关。较高的形次比可以一定程度上体现学生的词汇量和丰富程度。(库容(形符数)不同的文本如何对比形次比,文本越长,形次比可能越低,因为功能词多次重复 )
  • 标准形次比:STTR, standardized TTR) (每千词形次比的均值,1000词是个通用参考数值,对比几百字的学生作文,可以将1000换为100即可)
  • 软件:WordSmith 语料分析软件
  • 例子:大学生的英语作文,会真的比高中生作文词汇量更加丰富吗?如何验证呢?

2. 频数、频率

3. 索引、节点词

  1.  
[展开全文]

2. 主题词表

1)主题词(key word): 与其他语料库相比,频数具有显著差异的词汇

--如何寻找:将某个单词在两个库中的频数一一列出进行对比

---如何计算(卡方检验)

2)关键性(keyness): 对数似然率(loglikelihood)

3)观察语料(observed corpus):要考察的语料库(特定语体、群体的专用语料库)

      参照语料(reference corpus):库容相等或者更大(通用语料库)

4)操作技术:获取主题词,计算关键性

     软件:Keyword+, BFSU CQPweb(在线)

5)应用举例:新闻语料都有哪些主题词?

                      如何建立特殊用途英语主题词表?

[展开全文]

第七章 语料库研究方法的应用(一):外语教学和语言学研究

1. 外语教学与二语习得:语料库很大的应用领域

1)学习者语料库

典型方法:将学习者语料库与本族者语料库进行对比(主题词表)

切入点:形容词、副词、词块、搭配、一般将来时、语篇功能

聚焦点:偏误分析、易混淆词

二语习得:对学习者语言特点的探索

外语教学:语料库技术在外语教学中的应用

[展开全文]

2. 语言学和语料库语言学

1)语言学

明显的研究热点:隐喻、构式语法、

[展开全文]

mean word length 平均词长

sentences 句子数,越少说明句子越长

mean in words  句子平均词数

 

看sttr比较两个文本的词汇密度和词汇丰富度

看1-letter words等 看 文本使用词汇难度

 

 

[展开全文]

任务9:基本概念

Question

情态动词在小说中更常用,还是新闻中更常用?

有语法称英式英语习惯用I earnt, burnt, 而美式英语更常用丨earned, burned, 是这样吗?

基本概念

•频数(frequencies / occurrences) 

即一个词在一个文本中出现的频率

 

频率(frequency)
即标准化的频数(normalization)=频数/库容*1000

100/2000*1000=50    100/10000*1000=10

 

•技术:检索词语并查看统计
•软件:BFSU PowerConc

 

应用举例

情态动词must在不同语体(例如小说、新闻和学术语体)中,使用频率有否差异?

 

不勾count punctuations 即不算标点符号

对多个词jin'xing

 

[展开全文]

检索外置主语

it_PP\s(\S+_MD\s)*(\S+_VH\w*\s)*\S+_VB\w*\s(\S_RB\w*\s)*\S+_JJ

[展开全文]

小白也要开始学习语料库研究方法了,吉老师很有亲和力。

[展开全文]

 TTR = TYPE/TOKEN *100%

库容不同的文本如何对比形次比

文本越长,形次比越低

STTR标准形次比 可以用来比较库容不同的文本的形次比--Wordsmith 软件

 

[展开全文]