语言、数据与研究:阿檀小倪讲量化

语言、数据与研究:阿檀小倪讲量化
305人加入学习
(22人评价)
价格 ¥399.00
学时 11.0
学时 11.0
学习有效期 180 天(随到随学)
会员免费学 购买课程

比较性问题是如何形成:

对比性研究讨论的是一对一的差异对比

探究三个或三个以上:比较性研究

教材难度:文本难度(容易测量,较为客观),背景知识,认知难度

文本难度:词汇难度(词频的分布和等级状况)

                 平均句长 (总词数和句子数)

                 篇章可读性(是否容易被读懂)

研究目标说明研究问题:过去100年分为10个年代,比较三年级和六年级的

 

[展开全文]

如何进行对比性数据分析,从而回答问题

t检验:比较平均数之间的差异,样本量小于30

当总体呈现正态分布,而标准差未知,样本容量很小,一切可能的平均数之差会组成一个t 分布。---小概率反证法

单总t检验:样本的平均数和一个已知的总体平均数(A班和全校)

独立样本t 检验:两个独立、没有明显联系的样本的平均数(A班和B班)

配对样本t 检验:两个紧密练习的平均数之间的差异(A班,期中和期末)

t 检验仅适用连续性数据,比如身高,体重,得分等;不适用与排名类的顺序性数据。

具体操作:

设一列专门的变量:分组,1和2

分析---比较均值---选择合适的方法---选择框--分组变量---1和2---继续---检验变量---确定

顺序数据:分析---非参数检验--旧对话框---2个独立样本---选择框---分组变量---1和2---继续---检验变量---manm--whitney U --确定

读表:

第一个表格:描述性统计,

第二个表格:F,sig如果大于0.05,就要报告上面一行(假设方差相等)的结果;如果小于0.05,就要报告下面一行(假设方差不相等)的结果。

非参数分析:类似

如何在报告中呈现:

对应问题,重制表格(只需要提供平均数和标准差即可,不需要提供样本量和标准误)

重点报告:t 值,自由度,以及显著性水平

t(自由度(数字)=xxx

p=xxx

非参数报告的是u 值,z 值和p 值

 

 

 

 

[展开全文]

数据收集:

对象,工具和步骤

co-metrix:计算文本的语言和语篇特征

测量和分析不同阅读文本的特征

账号注册---文本分析---结果保存

数据量比较大,可以使用新版文本分析工作(new text analysis service)

 

 

 

[展开全文]

事物和事物之间的差异和不同---对比性研究

聚焦文本特征:因果连贯性,连接词与逻辑词,词语指代关系,主要词性密度,一词多义与同形异义,句法复杂度,构词与词频

[展开全文]

回归是以相关为基础和前提

相关是描述两个变量之间的联系,但是不能说明因果

回归则是通过模型,用一些变量来预测另外一个便俩个,从而进一步形成因果性的解释。

没有显著相关,就没有回归

相关越高,回归结果就越好

回归也有强度和方向

回归的优越性,既可以描述线性关系,曲线关系也可以的

回归需要区别自变量和因变量(相关的两个变量是平等的,可以互相)

回归可以计算多个自变量对因变量的影响(相关则是只能两个变量之间的关系)

多个变量的前提:

自变量和因变量之间有显著的相关

自变量之间的相关不能太高(人为扭曲关系)

自变量越多,所需要的样本量越多

一个自变量对应至少10个样本

比较不同的自变量的预测力,哪些自变量对因变量影响较强或较弱:标准多项回归

不同自变量对因变量的单独影响:层级多项回归

操作:

先列自变量,最后一列因变量

先进行相关:分析---相关---双变量---皮尔逊---点击要分析的变量

如果有两个变量高度相关,就得把这两个变量分开进行分析

再进行回归:分析--回归--线性--点击相应的因变量和所分析的自变量(下一张(层级多项回归))---方法--进入---统计量--共线性诊断--确定

如何阅读和解释图表:

模型汇总:R方:整个回归模型所有的自变量能够解释因变量中多少的变异

anova:F值: sig:显著性

多个自变量中哪个对因变量的贡献更大?

表格系数:关注 标准系数(越高),t值(越高)和sig(越低),就表明自变量和因变量之间的关系越紧密,预测力越高

有一栏共线性统计量:这是检验自变量之间是否过高相关,容差(大于0.1)或者vif(小于10)表明自变量之间的共线性水平很低,表示不能同时放到一个模型中来预测因变量

 

 

 

 

 

 

[展开全文]

对象:区别性特征数据,成绩数据

工具:口语测试,整体评分方式

步骤:1.每个区别性特征量化

          2.口试评分:试评,评分,确定结果

          3.人工编码:编码体系形成;编码误差控   制;编码结果计算   

 

[展开全文]

回归:多个事物和一个事物之间的关系

区别性特征

单个区别性特征和某一事物的关系

 

   

[展开全文]

是否存在重叠: 可以转换为相关性

线性关系:两个变量之间的关系保持一致,两个变量分别为横轴和纵轴,关系为一条直线

曲线关系:两个变量之间的关系会出现转折,关系为曲线

相关强度:绝对值在0到1之间波动,0 代表没有关系,1代表两个变量之间有完全的关联

相关方向:正相关代表变化方向一致,负相关代表逆向发展

相关和因果之间的分别:相关代表单纯的关联,因果代表的是一者会导致另一者的变化

如何做相关:

分析---相关---双变量---左边的变量全部选择---Pearson(等距或等比),Kendall的tau-b,Spearman(顺序)

如何解读

Rho系数(Spearman)

星号

显著性:   

如何分析

1.对应问题     

2.重制表格 不需要用X表示   或者添加新的东西

3. 文字说明:解释熟悉无法说清的问题,尤其是相关数字之间的逻辑关系                              经典例句:

Table 4 provdies an overview of ...

 

[展开全文]

如何收集相关性数据的收集

1. 对象: 

2.工具:平均降频

3. 步骤:

[展开全文]

两个事物或者两种现象之间的相互关系进行讨论和描述

找出一个锚定点

词族(word family):头词加上它的屈折变化和派生变化后的形式

词条(lemma):头词加上屈折变化,而没有派生变化

 

 

 

[展开全文]

描述性统计:

频率统计:每一种类别中有多少个,数数

集中量数:一堆数据聚拢的程度,例如平均数

离散趋势:一堆数据分散的程度,例如全距

第一步:数据录入

第二步:”分析“---描述统计---频率---从左边到右边,然后”图表“---直方图(勾选正态曲线)---返回点击确定

解读:

有效百分比:频率/有效数值

累积百分比: 项目有效百分比不断累加

如何呈现结果:

1. 对应问题:

2. 绘制图表:简单,线条清晰(三线表);清楚,行列与符号;明了,重要信息要框出来

3. 文字说明:说明相关数字之间的逻辑关系

 

[展开全文]

假设检验

基础:分布

虚无假设:先对总体的特征作出某种假设

原理:小概率反证法思想

检验虚无假设是否显著,并推论到总体

spss 20.0 可以选择中文,如果出现乱码,可以视图---字体---中文字体

数据视图---进行分析的数据

变量视图---对变量进行调整的地方

度量:等比、等距数据

序号:顺序数据

名义:称名数据

自动弹出的output,各种采取的操作和结果界面

[展开全文]

研究就是用数据回答问题

量化研究最关键在于研究问题的属性,即是否需要对研究对象进行量化描述,对研究对象之间的关系进行预测,对研究群体之间的差异进行分析

对群体进行量化性描述---描述研究

两者之间关系的研究---相关研究

多个群体与一个群体之间的关系进行量化分析---回归

两者之间差异的关系的量化分析---对比研究

多个群体之间差异的量化分析--比较研究

 

 

[展开全文]

基础是:理论框架 

研究问题或者假说

研究设计和资料收集

[展开全文]

www.victoria.ac.nz/lals/about/staff/paul-nation

www.sketchengine.co.uk

languagedata.net/clpa/

tool.cohmetrix.com

www.lexile.com

 

[展开全文]

频率统计:计算个数

集中量数:描述数据聚拢的程度-平均数

离散趋势:描述数据分散的程度-全距(最大值减去最小值)

 

[展开全文]

变量——属性

变量的四种类型——称名、顺序、等距、等比

样本——总体-部分

样本的性质——样本量+代表性

[展开全文]