语料库研究方法:基础与应用

语料库研究方法:基础与应用
466人加入学习
(16人评价)
价格 ¥399.00
学时 6.0
学时 6.0
学习有效期 180 天(随到随学)
会员免费学 购买课程

(查看、调试): EditPad Pro 大范围检索(所有字符、空格、构词字符、数字);限定性检索(边界、大小写)

(辅助编写)Pattern Builder

(检索)AntConc; Power Conc

(词类、格、时态、体、语态的检索)

\S+_VB\w*\s(\S+_RB\w*\s)*\S+_V\wG

\S+_VH\w*\s(\S+_RB\w*\s)*\S+_V\wN

\S+_VB\w*\s(\S+_R\w*\s)*\S+_V\wN

[展开全文]

词性标注(part-of-speech tagging,POS tagging)

语料库建设:采集、整理、分词、标注(语音、词性、句法、语义、元信息、质性等)

CLAWS(英语,多系统,收费)兰卡

TreeTagger(多语种,多系统,免费)德国

词性赋码集(POS Tagset)

CLAWS Tagset C7

V(动词): B(be动词); D (do); H (have)

软件:Pattern Builder(辅助编写正则表达式)

AntConc (检索正则表达式,支持Win & Mac和多语种)

PowerConc(检索正则表达式,支持Win 和英汉语)

Concordance Plot分别出现的次数

物主代词(\S+_PP\$|\S+_POS)

情态动词

[展开全文]

 \转义符,()作为整体,【】取值范围,l或者

.  any character,\s空格,\S非空格,\w, letter, digit, underscore(word character), \W punctuation,space; \d, digit; \D, non-digit; \b, boundary; \u, uppercase; \l, lowercase

? 有或者无(0或者1);* 重复0次或更多;+重复1次或;更多

练*

请找出文本中所有be动词+动词ed的被动结构

\b(arelwerelarelislwas)\b (\S+ ) *\w+ed\b

\b(learnlburnldreamlspell*lsmell*)(edlt)\b

[展开全文]

检索外置主语

it_PP\s(\S+_MD\s)*(\S+_VH\w*\s)*\S+_VB\w*\s(\S_RB\w*\s)*\S+_JJ

[展开全文]

正则表达式逻辑符号

翻为及限定符号     意义

.                         any character

\s                       space

\S                       non-space

\w                      letter, digit, underscore

\W                     punctuation, space

\d                      digit

\D                      non-digit

\b                      boundary

\u                       uppercase

\l                        lowercase

逻辑符号          意义

\                     转义符

( )                    作为一个整体

[ ]                     取值范围

|                        或者

 

计量符号             意义

?                  有或者无(0或者1)

*                    重复0词或更多

+                   重复1次或更多

举例

1 请找出文本中所有be动词+动词-ed的被动结构

1)\b(am|is|are|was|were)\b \w+ed\b (中间不能插入副词)

2)我写的:\b(am|is|are|was|were)\b \w+ \w+ed\b

答案:\b(am|is|are|was|were)\b (\w+ )\w+ed\b(中间可以插入一个副词,但副词后面不能有逗号等标点符号) 

3)\b(am|is|are|was|were)\b (\w+ )*\w+ed\b (中间可以没有或者有多个副词)

4)\b(am|is|are|was|were)\b (\S+ )*\w+ed\b (be动词和过去分词之间有多个副词,副词有逗号隔开)

2  请找出文本中所有被动词+动词-ed和动词-t的被动结构

\b(am|is|are|was|were)\b (\w+ed|t)

[展开全文]

索引concordance, Key word in context, KWIC

索引行concordance lines

检索词/节点词search word/node 

操作技术:索引、索引行分析、索引行整句保存、节点词挖空

操作软件:BFSU PowerConc、Sentence Collector、TestBuiIder

[展开全文]

频数frequencies/occurrences

频率frequency

标准化频数normalization=频数/库容*1000

[展开全文]

词性赋码集

词性标注(part-of-speech tagging, POS tagging)

语料库标注   英语多系统收费

CLAWS     TreeTagger多语种多系统免费

帮助我们写正则表达式的软件:Pattern Builder

 

[展开全文]

任务9:基本概念

Question

情态动词在小说中更常用,还是新闻中更常用?

有语法称英式英语习惯用I earnt, burnt, 而美式英语更常用丨earned, burned, 是这样吗?

基本概念

•频数(frequencies / occurrences) 

即一个词在一个文本中出现的频率

 

频率(frequency)
即标准化的频数(normalization)=频数/库容*1000

100/2000*1000=50    100/10000*1000=10

 

•技术:检索词语并查看统计
•软件:BFSU PowerConc

 

应用举例

情态动词must在不同语体(例如小说、新闻和学术语体)中,使用频率有否差异?

 

不勾count punctuations 即不算标点符号

对多个词jin'xing

 

[展开全文]

mean word length 平均词长

sentences 句子数,越少说明句子越长

mean in words  句子平均词数

 

看sttr比较两个文本的词汇密度和词汇丰富度

看1-letter words等 看 文本使用词汇难度

 

 

[展开全文]

第二章 语料库方法一:检索词语

目录

1. 形符、类符合、形次比

  1. 基本概念:
  • 形符:token (语言单位,相当于“词”) 
  • 类符:type (不能重复计算的形符)
  • e.g: Let's go    let's go now.(形符:10;类符: 4)
  • 形次比: TTR, type token ration 类符/形符*100%=40% ; 与词汇密度 lexical density 和词汇丰富度lexical richness紧密相关。较高的形次比可以一定程度上体现学生的词汇量和丰富程度。(库容(形符数)不同的文本如何对比形次比,文本越长,形次比可能越低,因为功能词多次重复 )
  • 标准形次比:STTR, standardized TTR) (每千词形次比的均值,1000词是个通用参考数值,对比几百字的学生作文,可以将1000换为100即可)
  • 软件:WordSmith 语料分析软件
  • 例子:大学生的英语作文,会真的比高中生作文词汇量更加丰富吗?如何验证呢?

2. 频数、频率

3. 索引、节点词

  1.  
[展开全文]

频数和频率

基本概念

频数(frequencies/occurences)

频率(frenquency)

标准化频数(normalization)软件:BUFS Powerconc

[展开全文]

基本概念:

频数:出现的次数

频率:频数除以库容乘以1000?,1000可以随着库容的变化而变大或变下(不明白)

 

[展开全文]

形次比(type token ratio)与词汇密度和丰富度相关。

标准形次比:STTR 

wordsmith 

[展开全文]

语料库研究方法:

语料库驱动

基于语料库

 

 

[展开全文]