总体:可以是人,可以是事物
样本:
大样本:>=30
小样本<=30
survey: 大样本
experiment: 最少可以 5个
总体:可以是人,可以是事物
样本:
大样本:>=30
小样本<=30
survey: 大样本
experiment: 最少可以 5个
1.引言
2.文献回顾
3.研究方法
3.1 研究问题
3.2 研究对象
3.3 研究工具
3.4 分析方法
4. 研究结果与讨论
5.结论
1. 描述统计 descriptive statistics: 分组;集中趋势、离散趋势
2. 推断统计 inferential statistics:推断总体分布状态、差异程度、相关程度
第五讲:T检验
一。单样本T检验
1. 定义:检验样本平均数与总体平局书之间是否存在显著差异的统计手段,即平均数的显著性检验。
2. 类型:
Z检验:总体正态分布,方差已知
T检验:总体正态分布,方差未知(常见)
Z检验是T检验的一种特种方式,能做Z检验的情况一定也可以做T检验。
统计实践中,常用T检验。
二。独立样本T检验
两个无关联的样本平均数之间的差异检验,即平均数差异的显著性检验。
类型:
Z检验:两总体方差已知
T检验:两总体方差未知
小姐
独立样本T检验比Z检验适用范围更广,因为多数情况下,研究者并不知道总体的方差是多少。
两个总体方差相等的独立样本T检验应用范围更广。
两个总体方差不相等时,也可以使用T检验,但是计算方法不同。
三。配对样本T检验
两个样本的数据有某种关联,检验这两个相关联样本平均数之间是否存在差异。例如一个实验对象的两次测试成绩,就是两个相关数据。
使用配对样本进行配对样本T检验师,公式分母中的n-1也可以由n代替。
配对样本T检验还可以通过每个对子的差值(d)进行计算。
一。参数估计
根据样本统计量合理、科学地推断总体的参数。
二。参数估计的类型
1. 总体参数的点估计
点估计,即用样本计算出来的一个数来估计总体未知参数。由于它只是一个点值,所以被称为点估计。
不足
点估计得到的估计值可能高于也可能低于总体参数真值,也就是说总体参数的点估计总会有偏差。
不仅如此,总体参数的点估计还无法计算估计值与参数真值的接近程度和可靠程度。
2. 总体参数的区间估计
区间估计给出的时总体参数所在的范围,以及总体参数落在这个范围里的可能性(概率)。
一。正态分布
曲线下面积比例固定;和平均数与标准差有关。
量化研究:实验;准实验;调查;语料库;元分析
质性研究:观察;访谈;日志;叙事;民族志
描述统计descriptive statistics 只对样本做统计
推断统计inferential statistics
自变量-independent variables 被研究者操纵的变量
因变量dependent variables 研究者观察的变量
例如交际教学法与语法翻译法对学生英语口语成绩提升那个更有效?
自变量:教学法(两个水平)
因变量:学生的口语成绩。
类别变量:nominal variables比如性别,家庭背景
顺序变量oridnal variables: 比如年级,行政职务,职称
等距变量 interval variables 各种分数
cet 4, TEM8, 李克特量表
连续变量: continuous variables 可以取小数的变量
比如四六级分数
频次变量(frenquency variables):次数等;只能是0或正整数。
描述集中趋势:
平均数(mean)
中位数(median)
众数(mode)
离散趋势
全距(range)
平均差(average deviation)
方差(varance)和标准差(standard deviation)
连续变量: 平均数和标准差
3. 推断统计的任务
1) 样本统计量(statistics): 平均数;标准差
2) 总体参数(parameters)
两个任务
1) 参数估计(parameter estimation)
2) 假设检验(hypothesis testing)
4. 推断统计的类型
1) 以寻找差异为目的的推断统计
T检验; 方差分析
2) 以寻找关系为目的的推断统计: 相关;回归;卡方检验。
我记得许老师在第一个视频中讲到,只要是13以上的版本都可以,对吗?还是17.0更好一些?
回归分析
一、概述
1.相关分析的局限:只表示双向互动关系,不够具体,但精确数量关系做不到。
2.回归分析探索变量间关系的数学表达,通过回归方程,以相关为前提,否则不能做回归分析。
二、一元线性回归
1.定义:只有一个自变量的回归,回归方程y=a+bx
2.回归方程的预测作用r^2(回归系数):因变量的总变异(离差平方和)可分解为回归和误差引起的变异,回归引起的变异就是r^2(通常用百分数表示),误差变异就是1-r^2。
3.预测作用与误差相比谁大:F检验
一元回归中,F检验df1=1,df2=n-2
三、多元线性回归简介
1.多元就是多个自变量,回归方程y=a+b1x1+b2x2+...+bkxk
2.一元与多元相同:回归方程,测定系数,检验系数的显著性
3.不同:计算方法,多元需要检验各个回归系数是否显著
四、回归关系的本质:解释关系(区分自变量和因变量,而相关分析不区分、考察共变关系)
多元回归陷阱:多重共线性(各自变量之间高度相关)会降低自变量对因变量的解释力
多元回归方法:
强制回归法:验证性分析,考察所有自变量对因变量的解释作用,不考虑自变量回归系数的显著性
逐步回归法:探索性分析,按照自变量对因变量解释作用的大小,使之一次进入回归方程,关注张斌了回归系数的显著性及其作用大小
多因素方差分析
非参数检验
卡方检验
一、概述
1.作用:检验样本代表的总体的分布状态是否与某种分布状态相吻合
2.是一种非参数检验:不是通过样本数据推断总体参数和估计的把握程度
频次数据(frequency),总体分布状态未知,对总体分布状态进行假设检验
3.特点:卡方值具有可加性,是正数;卡方值小,样本分布拟合理论分布,卡方值大,样本分布不拟合理论分布。
二、卡方拟合性检验/单因素卡方检验(是否符合某种分布,如正态分布)
三、卡方独立性检验/双因素卡方检验(列联表)
例如:性别与课外活动类型之间是否存在关联
得出结论总体有关联之后,观察列联表,如男生体育活动频数大于相应的理论频数,则男生多从事体育活动。
还可以做同质性检验,即重复测量结果的前后一致性
检验公式的微调:当df=1且有理论频数小于5时,要是用亚茨连续性校正法
相关分析
一、含义与分类
根据两个变量的关联变化方向,分为正相关、负相关、零相关、非线性相关
根据两个变量的属性,分为
皮尔逊相关--等距变量
肯德尔相关--定序变量
斯皮尔曼相关--等距和定序
克莱默相关--称名/分类变量
二、皮尔逊相关分析
1.适用条件:两个变量:均为连续性(等距)数据、总体正态分布、数据成对、线性关系、排除共变因素影响(即不同时受第三个因素影响)
三、相关系数
绝对值:0-1之间
>0.7 高相关
0.4-0.7 中相关
<0.4 低相关
注意:相关关系中不存在因果之别,两个变量是共变关系。
四
四、单因素组间方差分析
1. 又叫完全随机方差分析,>=3组,每一组相互独立,只接受一种实验处理
分为 各组样本量相同(常见)和各组样本量不同两种。
五、方差分析事后检验
1.必要性:也叫平均数的逐对比较或多重比较。
2.手段众多,常用T检验(LSD,较宽松,容易发现差异)和q检验(HSD,较严格,有时与LSD法结果相矛盾)。
3.多因素分析结果中,如交互作用达到显著水平,要做简单效应检验。
六、方差分析的种类
按自变量个数:单因素、多因素
按自变量水平间的关系:组间(自变量相互独立)、组内(自变量相互关联)、混合(组间+组内)
七、方差分析的基本原理
平方和可分解
总平方和=组间平方和+组内平方和
四、方差分析
一、T检验的问题和解决方案
1.只能比较两组之间的平均数差异,多于两组不能用,加大了一类错误的概率,置信度变为0.95的n次方,置信度降低。
2.需要新方法绛系统误差(条件误差)和抽样误差(随机误差)分离。
总差异=条件误差+随机误差(条件误差>随机误差-->差异存在)
总差异=组间差异+组内差异
组间差异=条件误差
组内差异=随机误差
组内差异>组内差异,就是发现了差异
总离差平方和=组内离差平方和+组建离差平方和
二、方差分析的原理
1.离差平方和sum of square (SS)可分解
2.自由度degree of freedom (df)可分解:总自由度可以分解为组间自由度和组内自由度
3.用平方和与自由度求均方mean os square (MS):组间平方和与组间自由度直逼为组间均方,组内平方和与组内自由度直逼为组内均方。
4.均方之比(方差分析)为F统计量:组间均方除以组内均方
三、方差分析统计前提
1.总体服从正态分布:样本足够大(>=30);样本量小时,通过卡方拟合度检验检测正态性;非正态分布时采用非参数检验。
2.组间变异、组内变异需要来自不同部分,需要明确、彼此相互独立
3.方差齐性:各组方差差别不大,要用方差齐性检验
假设检验
一、研究问题与假设
1. 研究问题(research question)明确指出核心概念和研究焦点,一般可以采用疑问句式。
2.假设hupothesis是对研究问题的预判性回答,分为研究假设(有差异假设)和零假设(无差异假设)。
二、误差
1.抽样误差sampling error即随机误差
2.系统误差systematic error即规律误差,由自变量引起的因变量变化。
3.实际测量中,系统误差与抽样误差总是混合在一起。看到底哪种误差大,采用假设检验。
三、假设检验
1. 假设检验标准:
抽样误差限度(即显著水平level of significance)。如果差距没有吵过这个限度,认定有抽样误差引起,如果差距超过这个限度,认定由系统误差引起。
2.假设检验对象:
假设检验是针对零假设的。通常,在0.05显著水平上,如果抽样误差在查一中占比更大,则接受零假设;如果系统误差在查一中占比更大,则拒绝零假设;
3.假设检验计算:
计算0.05水平上的z值-->计算结果与z值临界值1.96相比较:绝对值小于1.96,接受零假设。
4.假设检验注意事项
一类错误:零假设是真实,却被拒绝了
二类错误:零假设是虚假,却被接受了
因此,推断统计有犯错误的风险。
单尾与双尾问题:
双尾检验:零假设无方向性;(较多用)
单尾检验:零假设有方向性。
参数估计
一、定义
根据样本统计量合理、科学地推断总体参数的过程。
二、类型
1. 总体参数的点估计
不足:有偏差,且无法计算估计值与参数真值的接近程度和可靠程度。
2.总体参数的区间估计:
所在范围和落在范围里的概率,即置信区间confidence interval和置信水平confidence level。
区间估计计算步骤:计算标准误-->查出置信临界值(95%置信水平对应的z值是+-1.96)-->估计总体参数所在区间(478-486)
一、正态分布
分布曲线:中间高两边低,轴对称,无限延伸
正态曲线下面积:比例固定,与平均数和标准差有关,2.5,13.5,34,34,13.5,2.5%
二、标准分
体现100人中的相对位置和排名
例子:听力82(平均分=85,标准差s=3)
计算公式 z=(x-xbar)/s
听力z=(82-85)/=-1排名约第16名,82-85=-3=s,向左一个标准差
统计基本概念
一、总体、样本与抽样
1. 什么是总体,人或事物都可以
2. 样本,30个以上大样本,30个一下小样本,通常调查需要大样本,实验可以小样本
3. 抽样,要保证样本对于总体具有良好的代表性,
简单随机抽样法(抽签法适用于总体较小的情况如30人以内,随机数表法适用于总体稍大的情况如100人以内),
等距或系统抽样(尤其适用个体已经排序的情况),
分层抽样(先分层再采用上述两种方法抽样),关键在于分层,层内差异小,层间差异大
二、变量
1. 相互关系角度:自变量(操纵变量)、因变量,变量的水平
2.测量精度角度:类别变量、顺序变量、等距变量
3.数学特性角度:连续变量,频次变量
三、数据整理与描述
集中趋势:平均数、中位数、众数
离散趋势:全距、平均差、方差和标准差
连续变量一般要描述集中和离散趋势,频次变量一般描述频次
四、推断统计方法概述
1.任务是什么:参数估计,假设检验
2.分类:找差异用T和方差,找关系用相关、回归、卡方
五、作业
1. 建立SPSS数据文件并进行基本描述:平均数、标准差,制作各组次数直方图
六、重点:平均数、方差和标准差、抽样概念和方法
一、科学研究的一般过程
提出问题、收集数据、分析数据、解决问题
统计是分析数据的基础
二、学术论文一般结构
1.引言
2.文献回顾
3.研究设计/方法:研究问题、研究对象、研究工具、数据分析方法
4.研究结果与讨论:报告结果
3和4需要用到或基于统计
三、科研方法
量化研究:用数字描述现象,实证主义,实验环境控制变量,演绎性
包括实验法、准实验、调查、语料库、元分析
四、统计方法概述
1.statistics来源于中世纪拉丁语,意为“国家”,19世纪时统计学表示“用数字的方法说明国家的特征”,后来用到自然科学、社会科学、语言研究等领域
2.分类:描述统计、推断统计