111
111
TTR = TYPE/TOKEN *100%
库容不同的文本如何对比形次比
文本越长,形次比越低
STTR标准形次比 可以用来比较库容不同的文本的形次比--Wordsmith 软件
小白也要开始学习语料库研究方法了,吉老师很有亲和力。
2. 语言学和语料库语言学
1)语言学
明显的研究热点:隐喻、构式语法、
第七章 语料库研究方法的应用(一):外语教学和语言学研究
1. 外语教学与二语习得:语料库很大的应用领域
1)学习者语料库
典型方法:将学习者语料库与本族者语料库进行对比(主题词表)
切入点:形容词、副词、词块、搭配、一般将来时、语篇功能
聚焦点:偏误分析、易混淆词
二语习得:对学习者语言特点的探索
外语教学:语料库技术在外语教学中的应用
2. 主题词表
1)主题词(key word): 与其他语料库相比,频数具有显著差异的词汇
--如何寻找:将某个单词在两个库中的频数一一列出进行对比
---如何计算(卡方检验)
2)关键性(keyness): 对数似然率(loglikelihood)
3)观察语料(observed corpus):要考察的语料库(特定语体、群体的专用语料库)
参照语料(reference corpus):库容相等或者更大(通用语料库)
4)操作技术:获取主题词,计算关键性
软件:Keyword+, BFSU CQPweb(在线)
5)应用举例:新闻语料都有哪些主题词?
如何建立特殊用途英语主题词表?
第六章 语料库方法五:使用分级词表及生成主题词
词表对语言学习和大纲编写有较强的指导作用;词汇大纲的实质就是要充分利用从语料库中提取出来的高频词表.
但词汇大纲对语料库中语言的难度没有很好控制,太大太具颠覆性,教学实用性不强。
1.分级词表:对两个语料库进行语料难度对比分析
1)英语常见分级词表:GSL,AWL(用于判断词语难度的基础词表——底表base word list), 四六级词表
2)操作技术:对比语料难度,生成子语料库
软件:Range, AntWordProfiler,Sub-corpus Creator
3)应用举例:美国纽约时报和英国卫报的新闻,哪个更简单适合低年级学生阅读?
4)标记超纲词汇:BFSU Sentece Segment, BFSU NewWords Marker, BFSU Sentence Collector
5)标记大纲词汇:Antquicktools(在线)
2. 词族、词簇、词块、多词序列、N元组
1)词目(lemma):词位(lexeme)原形+所有屈折形式,不包括派生词
Bsp.: 番茄-->番茄酱、番茄块。。。。
2)词族(word family):屈折形式+派生形式
Bsp.:
3)词簇(word cluster)
同义词:词块/预制语块/多词单位/N元组:连续多个词构成的序列
词簇与固定搭配的区别:one of the是高频词簇,但不是语义完整的语法结构;词簇表给寻找短语和习语提供了路径
搭配多考察两个词之间的关系;词簇考察多个词
第五章 语料库方法四:生成词表
1.词表、词形还原表、停用词表
1)词表(Word list):词汇列表,把语料库中每个词出现的频数/频率列成一个清单
2)词性还原表(lemma list): 同一个语言原型的不同变化形式(was,is-->be)
3)停用词表(stop list):把屏蔽不看的词列成表格
4)操作技术:生成词表、词形还原表、停用词表、词云
软件:AntConc,Tagxedo(在线)
5)如何得到学术文体的常见词表?
6)如何得到最近新闻的热点词汇?
3. 应用举例
外语教学——数据驱动学习(Data driven learning DDL): 常用搭配检索,词义辨析(Writefull)
2.操作技术
1)技术:计算搭配强度;生成类连接
2)软件:PowerConc, BFSU Calligator, Sketch Engine(多语种语料)
第四章 语料库研究方法三:获取搭配形式
1. 基本概念
1)搭配 collocation:节点词前后的搭配(对理解具体语境中的词意很重要)
2)类连接 colligation:要对搭配进行分类(形式/词类)总结(区分词义、词性,对词典编辑和外语教学都很重要--介词搭配)
3)语义倾向 semantic preference: 对搭配词的语义层面、态度层面进行归纳
4)语义韵 semantic prosody:分为积极,消极,中性
2.词性赋码集 (POS Tageset)
1)词性标注(part-of-speech tagging, POS tagging)
-语料库建设:采集、整理、分词、标注(语音、词性、句法、语义、元信息、质性等)
软件:Tree Tagger (多语种、多系统、免费)
2)词性赋码集:不同标注软件中对同一单词的词性标注是不同的,因为他们的词性赋码集不同
赋码及含义:
3)操作技术:
-软件:Pattern Builder (辅助编写正则表达式)
AntConc (检索正则表达式,支持多系统,多语种)
PowerConc(检索正则表达式,支持win,英汉语)
3)元字符:8个标点
.=任意字符
-逻辑符号:
\=转义符(\+字母后拥有了特定含义;\+具有特定意义的符号后就没有任何意义了)
( )=作为一个整体(经常与分隔符连用)
[ ]=取值范围
| =分隔符(或者)
-计量符号:
?=放在字母后,表示可有可无
*=放在字母后,表示该字母可以重复0次以上
+=放在字母后,表示该字母可以重复1次以上
Beispiel:to?=t,to
to*=t,to,too
to+=to,too
第三章 语料库方法二:检索复杂结构
1. 正则表达式(大范围/限定性检索):用一些符号来匹配文本中的字符,将单词含义传达给计算机的媒介
2.操作技术:
-软件:EditPad Pro 文本查看及编辑器
3.
1)表达范围的符号:
.=任意字符
\s=空格
\S=非空格
\w=构词字符(所有的字母、数字。。。。)
\W=非构词字符(标点、空格)
\d=数字
\D=非数字
2)对字母进行限定性检索的符号:
\b=给字母(组合)前后加边界
\u=大写(case键检查)
\l=小写
2.词性赋码集(词类、格、时态、体、语态的检索)
4. 索引、节点词
1)索引(concordanc,key word in Contex,KWIC):语境中的关键词;将包含关键词的句子罗列出来
2)索引行(concordance line):列出来的句子
3)检索词/节点词(search word/node):被查找的单词
4)中间为检索词,左右两侧的词也可以进行排序,从而得出检索词的不同搭配和含义
操作技术:
-技术:索引,索引行分析,索引行整句保存,节点词挖空
-软件:BFSU PowerConc,Sentence Collector, TestBuilder
3. 频数、频率
1)频数(frequencies): 一个词在语料库中出现的实际次数,
we:100/2000,100/10000,100是频数
2)频率(frequency): 频数的标准化=频数/库容*1000(根据库容灵活变化)
we:100/2000*1000=50,100/10000*1000=10
操作技术:
-技术:检索词语并查看统计
-软件 :BFSU PowerCo'n'c
-应用:一个单词;批量单词
第二章 语料库方法一:检索词语
1. 引入:教学/学习中的疑问
2. 形符、类符、形次比
1)行符(token):词
2)类符(type):不重复出现的行符
Let's go let's go let'go now!
3)形次比(TTR, Type token ratio):类符/形符,与词汇密度(le*cal density)、词汇丰富度(le*cal richness)紧密相关,较高的形次比能从一定程度上反映学生的词汇量及丰富程度,适用于一篇文章内部
Beispiel: 行:10,类:4,TTR=4/10*100%=40%, 词汇重复率=60%,可以推断出学生的词汇量较为有限
4)标准形次比(STTR, 每千词/百词TTR的平均值):库容(形符数)不同的文本之间(因为文本越长,形次比可能越低,冠词the)
操作技术:WordSmith语料分析软件
3.频数、频率
4. 索引、节点词
、翻译共性
3. 语料库研究方法
梁茂成:《理性主义、经验主义与语料库语言学》
——语料库语言学家:
具体的言语/语言行为
以描述语言事实为目标,特定语言的语法
定量研究方法、概率论和统计学
语境中获取的真实语料
——语料库研究范式:
语料库驱动:用于语言描写,归纳——描述
基于语料库:用于不同领域,假设——验证
4. 语料库方法能研究什么?
1998-2013 三大研究热点:
中介语研究:外语教学、学习者语料库(趋缓)
翻译研究:平行语料库、翻译共性(见长)
短语学研究:搭配、意义单位
2014-2020 五大主题(交叉研究):
语言学:认知语言学、批评话语分析
语料库语言学(越来越热):语义、语块、词块、隐喻
外语教学/二语习得(传统研究领域)
翻译(最热门)
计算语言学:大数据、人工智能、机器翻译
研究范围:
文学(新的、大有可为的切入点)
研究工具:
北外语料库语言学
c