十讲走进语言统计学

十讲走进语言统计学
475人加入学习
(1人评价)
价格 ¥499.00
学时 20.0
学时 20.0
学习有效期 180 天(随到随学)
会员免费学 购买课程

第六讲 方差分析

一、对T检验的反思

只能两组进行检验

风险:加大了一类错误的概率

新的解决方案:将系统误差(条件误差)和抽样误差(随机误差)分离

总差异=条件误差+随机误差

条件误差比随机误差大,差异存在。

总差异=组间差异+组内差异

组间差异=条件误差

组内差异=随机误差

组间差异比组内差异大,就好了。

二、方差分析原理

三、方差分析统计前提

总体服从正态分布

样本足够大时,可假定数据服从正态分布

样本较小时,可通过卡方拟合度检验来检验数据的正态性

如果数据非正态分布,可采用相应的非参数检验方法。

变异来源相互独立

组间变异、组内变异需要来自不同部分,要明确,彼此相互独立

各组方差一致

方差一致性也称方差齐性(homogeneity of variance),是方差分析的前提条件。

检验方法:

 

[展开全文]

 

小结:使用相关系数进行配对样本T检验时,公式分母中的n-1也可以由n代替。

配对样本T检验还可以通过每个对子的差值(d)进行计算(见教材84-85页)。

[展开全文]

第四讲  假设检验

一、研究问题与假设

研究问题:明确指出核心概念和研究焦点的疑问句。

假设:对研究问题的预判性回答,分为研究假设(research hypothesis)和零假设(null hypothesis)。

零假设:相同,无差别

研究假设:不同,有差异

二、误差

抽样误差(随机误差):用样本信息推断总体信息时产生的误差,它是不可避免的。

系统误差(systematic error),也称规律误差,是由自变量引起的因变量变化。

三、假设检验(hypothesis test)(显著性检验)(test of significance)

统计学上规定了一个抽样误差限度(用希腊字母表示),即 =0.05,被称作显著水平(level of significance)

如果差距没有超过这个限度,则认定是抽样误差引起的。

如果差距超过这个限度,则认定是系统误差引起的。

假设检验对象:零假设

通常来说,在0.05显著水平上如果抽样误差在差异中占比更大,则接受零假设;如果系统误差在差异中占比更大,则拒绝零假设。

假设检验注意事项

(1)两类错误:一类错误:零假设是真实的,却被拒绝了。

二类错误:零假设是虚假的,却被接受了。

(2)单尾和双尾:单尾检验:零假设陈述中有方向性(A高于B)(B高于A)

双尾检验:零假设陈述中无方向性(A和B无显著差异)

[展开全文]

一、参数估计的定义

参数估计:根据样本统计量合理、科学地推断总体参数的过程。

二、参数估计的类型

点估计:用样本计算出来的一个数来估计总体未知参数。

不足:点估计得到的估计值可能高于或低于总体参数真值。

总体参数的点估计还无法计算估计值与参数真值的接近程度和可靠程度。

区间估计:给出总体参数所在的范围,以及总体参数落在这个范围的可能性(频率)。

置信区间(confidence interval)、置信水平(confidence level)

[展开全文]

第二讲  正态分布与标准分

一、正态分布(曲线)

中间高两边低;轴对称;无限延伸

正态曲线下面积

比较固定;与标准差和平均数有关;查表

二、标准分

 

[展开全文]

一、总体、样本与抽样

总体(popuiation)是我们所研究的具有某种共同特征的个体总和。

中国非英语专业大学生

北京市高职高专学生

中国大学生需掌握的积极词汇量

样本(sample)是从总体中抽取按照一定的原则和程序抽取的作为观察对象的一部分个体。

样本容量大于或等于30个个体的,在统计学上称为“大样本”

样本容量小于30个个体的,在统计学称为“小样本”

通常来说,调查研究需要使用大样本,实验研究可以使用小样本

抽样(sampling)是按照一定的原则和程序从总体中抽取个体的过程。

抽样最重要的原则:是要保证样本对于总体具有良好的代表性。

量化研究中三种常用的抽样方法:

简单随机抽样:指的是总体中每个个体被抽中的可能性是均等的一种抽样过程。

(抽签法:适用总体数较小。随机数表法:适用总体稍大。)

等距/系统抽样:是按照一定等距间隔在总体中抽取个体的过程。

分层抽样:按照总体已有特征,将其分成几个不同的部分(即层),然后再分别在层内进行简单随机抽样或等距/系统抽样的过程。

“层内差异小,层间差异大”

二、变量

从相互关系角度划分

自变量(independent variables):被研究者操纵的变量

因变量(dependent variables):研究者观察的变量

从测量精度角度划分

类别变量(norminal variables):把个体按照某一特征分成不同类别

性别、家庭背景、学校类别

顺序变量(ordinal variables):把个体按照一定特征排序后再分出类别

年级、行政职务、职称

等距变量(Interval variables):各种分数

从数学特性角度划分

连续变量(continuous variables):可以取最小的变量

四六级分数等,比例/比率

频次变量(frequency variables):只能取零或正整数的变量

个数、人数、次数

三、数据整理和描述

描述集中趋势:样本多数个体体现的集中特点

常用的集中趋势统计量:平均数(mean)、中位数(median)、众数(mode)

描述离散趋势

常见的离散趋势统计量有:

全距(range)、平均差(average deviation)、方差(variance)和标准差(standard deviation)

描述数据注意事项:

针对连续变量:既要描述集中 趋势(平均数),又要描述离散趋势(标准差)

针对频次变量:只需描述其中各类别的个数/次数/人数

四、推断统计方法概述

1.推断统计的任务

推断统计:按照一定的原理,利用样本统计量总体参数进行推论。

样本统计量

总体参数

2.推断统计的类型

宏观分为两类:

以寻找差异为目的的推断统计:T检验、方差分析

以寻找关系为目的的推断统计:相关、回归、卡方检验

 

 

[展开全文]

1. 单样本T检验

: 样本平均数与总体平均数有没有显著差异

 

Z检验方差已知,/使用的是总体标准差

T检验方差未知 /使用的是样本标准差

 

T 检验结果随自由度变化而变化,所以需要用样本量减一作为自由度

 

可以理解为Z检验是T检验的一种方式

 

2. 独立样本T检验

两个无关联样本之间是否存在显著的差异? 

类型:

1. Z检验

2. T检验(常见)

两总体方差相等

两总体方差不等

 

独立样本T检验要先算出来自由度

然后查T的临界值

 

配对样品T检验

配对样本T检验需要先求出自由度

1. 使用配对样品T检验时,公式分母用N-1 或者N都可以

2. 配对样品T检验还可以通过每个对子的(D)来计算

 

 

 

[展开全文]

1. 研究问题与假设

平均数是否有差异

2. 假设检验

在研究之前用预判的方法来假设问题的回答

1. 零假设(H0)相同(即是说新的教学法所教学生的成绩跟全年级没差, 我们看到的2.5的误差是由于抽样误差导致的)

2. 研究假设(H1)不同

 

3,误差

1。抽样误差(随机误差)不可避免- 在随机抽到的人20人的平均分不一定就是全年级的平均分。这时候把这20人放回去再重新抽样,这个数字又会发生改变。

2. 系统误差 (规律误差)是由自变量引起的应变量变化。 系统误差和随机误差都会引起因变量的变化

 

显著性检验就是假设检验- 统计上规定了抽样误差的限度,一般在0.05 (阿尔法)

0.05是显著水平 

如果没有车超过0,05 , 那么就是抽样误差引起的如果超过了0.05, 那就是系统误差决定的

假设检验都是基于零假设的

假设检验计算

1. 计算0,05显著水平上的Z值

用样本平均数减去总体平均数。。。

 

两类错误

1. 一类错误, 零假设是真实的,却被拒绝了

二类错误,零假设是虚假的,却被接受了

单尾&双尾

双尾: 零假设陈述中无方向性-(A与B无显著差异)

单尾:零假设中有方向性(A高于B/ B高于A)

 

 

[展开全文]

这个平台真的是不太好,建议许老师换个平台

[展开全文]

作业必须计算,得回看数据

[展开全文]

部分正确,输入问群

[展开全文]
玉妈 · 2018-10-16 · 课后测验 0