比较性问题是如何形成:
对比性研究讨论的是一对一的差异对比
探究三个或三个以上:比较性研究
教材难度:文本难度(容易测量,较为客观),背景知识,认知难度
文本难度:词汇难度(词频的分布和等级状况)
平均句长 (总词数和句子数)
篇章可读性(是否容易被读懂)
研究目标说明研究问题:过去100年分为10个年代,比较三年级和六年级的
比较性问题是如何形成:
对比性研究讨论的是一对一的差异对比
探究三个或三个以上:比较性研究
教材难度:文本难度(容易测量,较为客观),背景知识,认知难度
文本难度:词汇难度(词频的分布和等级状况)
平均句长 (总词数和句子数)
篇章可读性(是否容易被读懂)
研究目标说明研究问题:过去100年分为10个年代,比较三年级和六年级的
如何进行对比性数据分析,从而回答问题
t检验:比较平均数之间的差异,样本量小于30
当总体呈现正态分布,而标准差未知,样本容量很小,一切可能的平均数之差会组成一个t 分布。---小概率反证法
单总t检验:样本的平均数和一个已知的总体平均数(A班和全校)
独立样本t 检验:两个独立、没有明显联系的样本的平均数(A班和B班)
配对样本t 检验:两个紧密练习的平均数之间的差异(A班,期中和期末)
t 检验仅适用连续性数据,比如身高,体重,得分等;不适用与排名类的顺序性数据。
具体操作:
设一列专门的变量:分组,1和2
分析---比较均值---选择合适的方法---选择框--分组变量---1和2---继续---检验变量---确定
顺序数据:分析---非参数检验--旧对话框---2个独立样本---选择框---分组变量---1和2---继续---检验变量---manm--whitney U --确定
读表:
第一个表格:描述性统计,
第二个表格:F,sig如果大于0.05,就要报告上面一行(假设方差相等)的结果;如果小于0.05,就要报告下面一行(假设方差不相等)的结果。
非参数分析:类似
如何在报告中呈现:
对应问题,重制表格(只需要提供平均数和标准差即可,不需要提供样本量和标准误)
重点报告:t 值,自由度,以及显著性水平
t(自由度(数字)=xxx
p=xxx
非参数报告的是u 值,z 值和p 值
数据收集:
对象,工具和步骤
co-metrix:计算文本的语言和语篇特征
测量和分析不同阅读文本的特征
账号注册---文本分析---结果保存
数据量比较大,可以使用新版文本分析工作(new text analysis service)
事物和事物之间的差异和不同---对比性研究
聚焦文本特征:因果连贯性,连接词与逻辑词,词语指代关系,主要词性密度,一词多义与同形异义,句法复杂度,构词与词频
回归是以相关为基础和前提
相关是描述两个变量之间的联系,但是不能说明因果
回归则是通过模型,用一些变量来预测另外一个便俩个,从而进一步形成因果性的解释。
没有显著相关,就没有回归
相关越高,回归结果就越好
回归也有强度和方向
回归的优越性,既可以描述线性关系,曲线关系也可以的
回归需要区别自变量和因变量(相关的两个变量是平等的,可以互相)
回归可以计算多个自变量对因变量的影响(相关则是只能两个变量之间的关系)
多个变量的前提:
自变量和因变量之间有显著的相关
自变量之间的相关不能太高(人为扭曲关系)
自变量越多,所需要的样本量越多
一个自变量对应至少10个样本
比较不同的自变量的预测力,哪些自变量对因变量影响较强或较弱:标准多项回归
不同自变量对因变量的单独影响:层级多项回归
操作:
先列自变量,最后一列因变量
先进行相关:分析---相关---双变量---皮尔逊---点击要分析的变量
如果有两个变量高度相关,就得把这两个变量分开进行分析
再进行回归:分析--回归--线性--点击相应的因变量和所分析的自变量(下一张(层级多项回归))---方法--进入---统计量--共线性诊断--确定
如何阅读和解释图表:
模型汇总:R方:整个回归模型所有的自变量能够解释因变量中多少的变异
anova:F值: sig:显著性
多个自变量中哪个对因变量的贡献更大?
表格系数:关注 标准系数(越高),t值(越高)和sig(越低),就表明自变量和因变量之间的关系越紧密,预测力越高
有一栏共线性统计量:这是检验自变量之间是否过高相关,容差(大于0.1)或者vif(小于10)表明自变量之间的共线性水平很低,表示不能同时放到一个模型中来预测因变量
对象:区别性特征数据,成绩数据
工具:口语测试,整体评分方式
步骤:1.每个区别性特征量化
2.口试评分:试评,评分,确定结果
3.人工编码:编码体系形成;编码误差控 制;编码结果计算
回归:多个事物和一个事物之间的关系
区别性特征
单个区别性特征和某一事物的关系
是否存在重叠: 可以转换为相关性
线性关系:两个变量之间的关系保持一致,两个变量分别为横轴和纵轴,关系为一条直线
曲线关系:两个变量之间的关系会出现转折,关系为曲线
相关强度:绝对值在0到1之间波动,0 代表没有关系,1代表两个变量之间有完全的关联
相关方向:正相关代表变化方向一致,负相关代表逆向发展
相关和因果之间的分别:相关代表单纯的关联,因果代表的是一者会导致另一者的变化
如何做相关:
分析---相关---双变量---左边的变量全部选择---Pearson(等距或等比),Kendall的tau-b,Spearman(顺序)
如何解读
Rho系数(Spearman)
星号
显著性:
如何分析
1.对应问题
2.重制表格 不需要用X表示 或者添加新的东西
3. 文字说明:解释熟悉无法说清的问题,尤其是相关数字之间的逻辑关系 经典例句:
Table 4 provdies an overview of ...
如何收集相关性数据的收集
1. 对象:
2.工具:平均降频
3. 步骤:
两个事物或者两种现象之间的相互关系进行讨论和描述
找出一个锚定点
词族(word family):头词加上它的屈折变化和派生变化后的形式
词条(lemma):头词加上屈折变化,而没有派生变化
描述性统计:
频率统计:每一种类别中有多少个,数数
集中量数:一堆数据聚拢的程度,例如平均数
离散趋势:一堆数据分散的程度,例如全距
第一步:数据录入
第二步:”分析“---描述统计---频率---从左边到右边,然后”图表“---直方图(勾选正态曲线)---返回点击确定
解读:
有效百分比:频率/有效数值
累积百分比: 项目有效百分比不断累加
如何呈现结果:
1. 对应问题:
2. 绘制图表:简单,线条清晰(三线表);清楚,行列与符号;明了,重要信息要框出来
3. 文字说明:说明相关数字之间的逻辑关系
论文标题---核心概念---研究问题
假设检验
基础:分布
虚无假设:先对总体的特征作出某种假设
原理:小概率反证法思想
检验虚无假设是否显著,并推论到总体
spss 20.0 可以选择中文,如果出现乱码,可以视图---字体---中文字体
数据视图---进行分析的数据
变量视图---对变量进行调整的地方
度量:等比、等距数据
序号:顺序数据
名义:称名数据
自动弹出的output,各种采取的操作和结果界面
研究就是用数据回答问题
量化研究最关键在于研究问题的属性,即是否需要对研究对象进行量化描述,对研究对象之间的关系进行预测,对研究群体之间的差异进行分析
对群体进行量化性描述---描述研究
两者之间关系的研究---相关研究
多个群体与一个群体之间的关系进行量化分析---回归
两者之间差异的关系的量化分析---对比研究
多个群体之间差异的量化分析--比较研究
基础是:理论框架
研究问题或者假说
研究设计和资料收集
www.victoria.ac.nz/lals/about/staff/paul-nation
www.sketchengine.co.uk
languagedata.net/clpa/
tool.cohmetrix.com
www.lexile.com
What
频率统计:计算个数
集中量数:描述数据聚拢的程度-平均数
离散趋势:描述数据分散的程度-全距(最大值减去最小值)
变量——属性
变量的四种类型——称名、顺序、等距、等比
样本——总体-部分
样本的性质——样本量+代表性