语言、数据与研究:量化工具百宝箱

语言、数据与研究:量化工具百宝箱
692人加入学习
(6人评价)
价格 ¥599.00
学时 16.0
学时 16.0
学习有效期 180 天(随到随学)
会员免费学 购买课程

分析.器 搭配时态/熊更正如果没有v的话

coh-metrix

 整套找品指标,-

[展开全文]

研究问题--对象--工具--步骤

t检验1对1差异

[展开全文]

分析过程:

待分析文本(纯文本文件)——句法结构分析(斯坦福句法分析器)——句法结构检索和统计(Tregex)——测量指标的计算——分析结果输出

句法结构检索和统计过程

明确定义涉及到的所有句法结构(如子句、T单位、并列短语等)——将句法结构定义转换为Tregex表达式——用Tregex对句法分析器生成的句法数进行检索,提取并统计与表达式相匹配的句法结构。

并列短语的定义:包括并列形容词。副词、名词或动词短语。

并列短语的定义对应的Tregex表达式

ADJP|ADVP|NP|VP<CC

此表达式读作:直接包含(<)一个并列连词(CC)的形容词短语(ADJP)、副词短语(ADVP)、名词短语(NP)、或动词短语(VP)

MLS:平均句子长度

T/S:并列句比率(初级学习者使用较多)

MLT:平均T单位长度

DC/C:从属子句比率

MLC:平均子句长度

CP/C:每个子句中的并列短语数量

CN/C:每个子句中的复杂性名词短语数量

二语句法复杂度分析器可靠吗?

搭配、时态、单复数、主谓一致等错误不影响句法结构分析;连写句和缺乏动词的句子片段会导致句法结构分析错误,文中这类句子过多应在分析前予以改正。

(在线界面、图形用户界面、命令行界面)

 

[展开全文]

基准: 最基本的需求。

vocabulary coverage认识的词 覆盖在文本中的的整个比例

词汇基准的几个要素:

1.词汇基本单位: 词族,词目

2.典型例句:一个词只有句子里才能赋予生命。

词族:词汇的家族。take  taken  took , 都属于take.  take 就是族长,也叫头词。有曲折变化,也有派生变化。

lemmas : 只包括头词和曲折变化。 词条

2. 难度 分级

 

英语试题例句库:

通常头词检索

LD: language data. 

覆盖法: 

覆盖法假设: 如果认识一个词,那么其他形式一般也都认识。 阅读,听力,等输入研究中。

共选法假设: 如初级阶段,学习者认识头词,那么只能用曲折变化。写作,口语。

1. 覆盖法:口诀,频率为先,覆盖为主。

覆盖率,累计

99% 休闲阅读

90% 基本阅读

低于90%,不适合阅读

以词族为基本单词,统计他们的频率,累计覆盖率。

如: 看课本的难度。 放进一套教材。

2. 词目,共选法。

假设: 认识develop, 不一定认识它的派生变化。

ARF: 相对频率值。词汇在不同篇章中的频率

 

n--K: 为什么以1000 位单位。有争议。

 

 

 

 

 

 

 

 

 

[展开全文]

 

1阅读的词汇需求量。(思辨英语的需求量)

对象,学生

工具: 语料

步骤:

量化问题分类:

1. 找多少,描述性统计

样本量,平均数, 标准差,最大值,最小值

2. 找关系:相关分析,两个群体的相互关系,一对一

回归分析:多个与一个的关系

3. 找差异:T检验, 方差分析

T检验:一对一的差异,如,男生和女生

方差分析:多个群体间的差异。

 

第一类: 小凯故事? (查第一季)

三类问题,归结为三种工具,词汇,句法和篇章工具。(查第一季提供的工具)

难点:不会选择工具,不会操作工具,如何拓展工具使用

四: 如何解决困难。

如何预习: c词汇工具:range , 

sketch engine

GSL: general service list 通用词汇

AWL:academic  word list 学术词汇 

 

英国国家语料库 14级*1000

COCA :  corpus of contempary american美国当代语料库 25级

头词:原形  take took  taken   take

都要下载下来。

 

sketch Engine 多种语言

想给word 做个速描

句法工具: 句法复杂度分析器

篇章工具: 英语文本指难针,  coh-metrix

与中高考,四六级,考研 文本。

不仅定难度,还要反馈。

李百川博士和金老师研发。

coh-metrix : 难度评估 历史久远,传统上,词汇和句定难度

这是新的研究阶段的代表,从词汇到句子,跨越到连贯。 coherence.   metrix计算的指标.

range: 词汇分析

sketch engine: 怎么进行词汇分析,例句检索

 

三讲: 

四讲:

 

Q1: 量化,质化,混合研究

数据间的差异,量化

意义进行结构,质化

如,每小时洗几件衣服,量化研究

 洗衣服,怎么洗,为什么洗等,价值, 质化 

既想又想,混合研究

Q2

文本指南针:国内的使用情景,特征比较明显,定级和反馈

Coh:本国语使用者。具体特征之外,还有朝向特征,语义,关联方面提供指标

Q6: 汉语的文本指南针。sketch engine 也能用于汉语

Q7:卢小飞,专著

Q8:

range  词族: 词汇覆盖率,频率

sketch : 不仅有词族,  大规模语料检索。

最基本的统计单位不同

Q9:先用这些工具,量化后,才需要spss

(第一季已分享spss)

Q11:谷歌学术 领域最经典的文章,文献脉络,建立图书馆,订阅提醒新文献

了解主流期刊,关注 

Q14: 聚焦情景,小说阅读的变量继续聚焦。

Q16:汉语字词小档案

Q19: language data网站  

 

 

 

 

 

 

 

[展开全文]

篇章工具:Coh-metrix

维基百科中下载

 

[展开全文]

找关系:回归问题

语音、流利、词汇、语法等因素和口语成绩的关系

需要词汇

方差分析:定标准

词汇难度、平均句长、篇章可读性

核心工具(词汇、句法、篇章)

Range SE

GSL:通用语言

AWL:学术词汇

头词:原形

句法工具:

篇章工具:

Coh-Metrix、文本指难针

实施三步策略:

原理、

[展开全文]

授课教师

华南师范大学
宾夕法尼亚州立大学