类fu,是不重复的
两个对比文本对比时注意形刺比
WordSmith 分析软件
类fu,是不重复的
两个对比文本对比时注意形刺比
WordSmith 分析软件
P柏拉图:变化 不可靠 真理 理想模型 回溯
自上而下 理性演绎
乔姆斯基:在沙发中思考的语言学家
A亚里士多德:现实 经验世界 归纳真理
自下而上 经验归纳
实地语言学家
文章:梁茂成 《理性主义、经验主义与语料库语言学》
Antconc: word list,,start; tool preference, lemma, apply, start; tool preference, use GSL
Taxsego词云
lemma:词目,不包括派生词
word family:词族
word clusters:词簇
基本类型
1. general corpus
英国国家语料库 BNC、现代美语语料库 COCA
2. specialized corpus
学术语料库 MICASE&MICUSP、儿童语料库PATTIE (吉创建的儿童读物及视听材料的语料库)、商英BEC
3. 学习者语料库 (learner corpus):
如中国学习者语料库CLEC(桂诗春 、SWECCL(文秋芳 口、笔语语料库)、英语学习者语料库ICLE
4. 历时语料库(diachronic corpus):
如布朗家族语料库 Brown Family、 美语COHA、赫尔辛基 HELSINKI
5. 平行语料库(parallel corpus)
如欧洲议会语料库 Europarl 、TED演讲语料库、 Babel 语料库
6. 可比语料库( comparable corpus):
如 Crown、 CLOB、 ToRCH2009 语料库、国际英语语料库 ICE
#
chapter 2
形符和类符
a ollection of naturally-occuruing langage text. chosen to characterize a state or variety of a language. 自然、需要设计,有明确的目的性。
机器可读;真实语言;取样合理;代表性强 (需要合理设计,不同语言的比例)
常见类型:
通用语料库
BNC,COCA
专用语料库
学术预料库: MICASE & MICUSP,儿童预料库 PATTIE,商英 BEC
学习者语料库
CLEC,SWECCL (口笔语料),英语学习者国际语料库 ICLE
历时语料库:
Brown Family, COHA (1801-2000), Helsinki
平行语料库
Europarl (欧洲议会语料库)
Ted 演讲语料库
Babel语料库
可比语料库
Crown,Clob Torch
频数
频率是标准化的频数,公式为频数/库容*1000(或者100也可以根据容量gai)
理性演绎回溯论
经验主义
理性主义、经验主义与语料库语言学《中国外语》
梁茂成 语料库语言学研究的两种范式:渊源、分歧及前景
基于
2语料库应该经过严格的设计和取样,应该是基于自然的语言
机器可读
真实语言
取样合理
代表性佳
语料库类型
1、 通用语料库
2、专用语料库
3、学*者语料库
4、历时语料库
5、平行语料库(涉及到原文和译文)
6、可比语料库
111
(基本概念
1. 形符 token(词的数量)
2. 类符 type(不重复出现的词)
3. 形次比 = 类符/形符*100%
形次比与 词汇密度(le*cal density )及词汇丰富度(le*cal richness)相关
4. 标准形次比 STTR 每千词形次比的均值
+++++形次比越高,词汇越丰富
使用软件:wordSmith
wordlist-file-new-选择文件-ok-make a wordlist now-下方菜单statistics
频数
频率:标准化的频数= 频数/库容 *1000(可更改)
bfsu-files-选择打开-右侧设置区域stats,取消punctuation-左上角concordance-文本框输入词汇后检索-stats-显示总频数
之后勾选最上面的distribution-点击table
save 保存-复制到excel 去计算频率
多词检索前面步骤 一直到concordance
选择batch- load list - 后面步骤一致
学习数据库
索引 (concordance)
索引行(concordance lines)
检索词/节点词(search word/node)
操作技术
技术:索引、索引行分析、索引行整句保存、节点词挖空
步骤:前面一样 输入词汇,点击search,点击sort是自定义排序
点击simple sort 是简单排序
l1 指的是按照左侧第一个词字母排序
r1是按照右侧第一个词字母排序
重新点击loop 在选择就是重新排序
可以设置多级排序:settings-concordance-第一级排序-第二级排序-一共五级排序
再点击sort
就是按照刚刚设置的方式排序,就用sentence collector 软件
选用语料-选用sentence collector-
如果是要观察完整的一句话,就用
复杂检索的两种类型
1. 正则表达式 大范围限定(某一大范围内的)检索
2. 词性赋码集
如何看正则表达式的效果:edit pro
optiona-configure file types-text documnt-editor-edit-courrier new-colors and ...-customize-高亮取消下划线
1. 正则表达式的标注软件
2. 正则表达书辅助编写(相当于检索对应的正则表达式怎么写)
3. 有了正则表达式,就可以进行检索
(1)antconc
(2)powerconc
editpad pro 查看调试正则表达式
pattern builder 辅助编写正则表达式
antconc 和power conc 检索正则表达式