十讲走进语言统计学

十讲走进语言统计学
475人加入学习
(1人评价)
价格 ¥499.00
学时 20.0
学时 20.0
学习有效期 180 天(随到随学)
会员免费学 购买课程

一、科学研究的一般过程
提出问题、收集数据、分析数据、解决问题
统计是分析数据的基础

二、学术论文一般结构
1.引言
2.文献回顾
3.研究设计/方法:研究问题、研究对象、研究工具、数据分析方法
4.研究结果与讨论:报告结果
3和4需要用到或基于统计

三、科研方法
量化研究:用数字描述现象,实证主义,实验环境控制变量,演绎性
包括实验法、准实验、调查、语料库、元分析

四、统计方法概述
1.statistics来源于中世纪拉丁语,意为“国家”,19世纪时统计学表示“用数字的方法说明国家的特征”,后来用到自然科学、社会科学、语言研究等领域
2.分类:描述统计、推断统计

[展开全文]

作业必须计算,得回看数据

[展开全文]

1. 研究问题与假设

平均数是否有差异

2. 假设检验

在研究之前用预判的方法来假设问题的回答

1. 零假设(H0)相同(即是说新的教学法所教学生的成绩跟全年级没差, 我们看到的2.5的误差是由于抽样误差导致的)

2. 研究假设(H1)不同

 

3,误差

1。抽样误差(随机误差)不可避免- 在随机抽到的人20人的平均分不一定就是全年级的平均分。这时候把这20人放回去再重新抽样,这个数字又会发生改变。

2. 系统误差 (规律误差)是由自变量引起的应变量变化。 系统误差和随机误差都会引起因变量的变化

 

显著性检验就是假设检验- 统计上规定了抽样误差的限度,一般在0.05 (阿尔法)

0.05是显著水平 

如果没有车超过0,05 , 那么就是抽样误差引起的如果超过了0.05, 那就是系统误差决定的

假设检验都是基于零假设的

假设检验计算

1. 计算0,05显著水平上的Z值

用样本平均数减去总体平均数。。。

 

两类错误

1. 一类错误, 零假设是真实的,却被拒绝了

二类错误,零假设是虚假的,却被接受了

单尾&双尾

双尾: 零假设陈述中无方向性-(A与B无显著差异)

单尾:零假设中有方向性(A高于B/ B高于A)

 

 

[展开全文]

T 检验只适用于两组之间的差异检验

方差可以用于三组及以上之间的差异检验

[展开全文]

1. 单样本T检验

: 样本平均数与总体平均数有没有显著差异

 

Z检验方差已知,/使用的是总体标准差

T检验方差未知 /使用的是样本标准差

 

T 检验结果随自由度变化而变化,所以需要用样本量减一作为自由度

 

可以理解为Z检验是T检验的一种方式

 

2. 独立样本T检验

两个无关联样本之间是否存在显著的差异? 

类型:

1. Z检验

2. T检验(常见)

两总体方差相等

两总体方差不等

 

独立样本T检验要先算出来自由度

然后查T的临界值

 

配对样品T检验

配对样本T检验需要先求出自由度

1. 使用配对样品T检验时,公式分母用N-1 或者N都可以

2. 配对样品T检验还可以通过每个对子的(D)来计算

 

 

 

[展开全文]

量化研究一开始有清晰的假设,质性研究逐渐行程假设。

描述统计只针对样本进行。必须要有推断统计来推断总体的形势。

 

[展开全文]

统计基本概念

一、总体、样本与抽样

1. 什么是总体,人或事物都可以

2. 样本,30个以上大样本,30个一下小样本,通常调查需要大样本,实验可以小样本

3. 抽样,要保证样本对于总体具有良好的代表性,
简单随机抽样法(抽签法适用于总体较小的情况如30人以内,随机数表法适用于总体稍大的情况如100人以内),
等距或系统抽样(尤其适用个体已经排序的情况),
分层抽样(先分层再采用上述两种方法抽样),关键在于分层,层内差异小,层间差异大

二、变量

1. 相互关系角度:自变量(操纵变量)、因变量,变量的水平
2.测量精度角度:类别变量、顺序变量、等距变量
3.数学特性角度:连续变量,频次变量

三、数据整理与描述

集中趋势:平均数、中位数、众数
离散趋势:全距、平均差、方差和标准差
连续变量一般要描述集中和离散趋势,频次变量一般描述频次

四、推断统计方法概述

1.任务是什么:参数估计,假设检验
2.分类:找差异用T和方差,找关系用相关、回归、卡方

五、作业

1. 建立SPSS数据文件并进行基本描述:平均数、标准差,制作各组次数直方图

六、重点:平均数、方差和标准差、抽样概念和方法
 

[展开全文]

参数估计:通过样本的平均数和标准差来估计整体的平均数和标准差。

假设检验:估计出来的总体参数有多大把握是正确的。

[展开全文]

一、正态分布

分布曲线:中间高两边低,轴对称,无限延伸
正态曲线下面积:比例固定,与平均数和标准差有关,2.5,13.5,34,34,13.5,2.5%

二、标准分

体现100人中的相对位置和排名
例子:听力82(平均分=85,标准差s=3)
计算公式 z=(x-xbar)/s
听力z=(82-85)/=-1排名约第16名,82-85=-3=s,向左一个标准差

 

[展开全文]

参数估计

一、定义

根据样本统计量合理、科学地推断总体参数的过程。

二、类型

1. 总体参数的点估计
不足:有偏差,且无法计算估计值与参数真值的接近程度和可靠程度。
2.总体参数的区间估计:
所在范围和落在范围里的概率,即置信区间confidence interval和置信水平confidence level。
区间估计计算步骤:计算标准误-->查出置信临界值(95%置信水平对应的z值是+-1.96)-->估计总体参数所在区间(478-486)

[展开全文]

量化研究用数字描述现象

质性研究用文字描述现象

量化研究源于实证主义

质性研究源于自然主义

量化研究通常在经过控制的实验环境下进行

质性研究通常在未经控制的自然环境下进行

量化研究具有演绎性,通常用于假设展开研究

质性研究具有归纳性,通常在研究中形成假设

量化研究常用方法:实验,准实验,调查,语料库,元分析。

质性研究常用方法:观察,访谈,日志,叙事,民族志。

描述统计:关注如何整理数据,并汇报其全貌,比如分组,绘图,集中趋势,离散趋势等。

推断统计:关注如何利用数据做决断,并确定其可靠程度,比如推断总体分布状态,差异程度,相关程度等。

[展开全文]
MrsQ · 2018-09-02 · 课程导学 0

假设检验

一、研究问题与假设

1. 研究问题(research question)明确指出核心概念和研究焦点,一般可以采用疑问句式。
2.假设hupothesis是对研究问题的预判性回答,分为研究假设(有差异假设)和零假设(无差异假设)。

二、误差

1.抽样误差sampling error即随机误差
2.系统误差systematic error即规律误差,由自变量引起的因变量变化。
3.实际测量中,系统误差与抽样误差总是混合在一起。看到底哪种误差大,采用假设检验。

三、假设检验

1. 假设检验标准:
抽样误差限度(即显著水平level of significance)。如果差距没有吵过这个限度,认定有抽样误差引起,如果差距超过这个限度,认定由系统误差引起。

2.假设检验对象:
假设检验是针对零假设的。通常,在0.05显著水平上,如果抽样误差在查一中占比更大,则接受零假设;如果系统误差在查一中占比更大,则拒绝零假设;

3.假设检验计算:
计算0.05水平上的z值-->计算结果与z值临界值1.96相比较:绝对值小于1.96,接受零假设。

4.假设检验注意事项
一类错误:零假设是真实,却被拒绝了
二类错误:零假设是虚假,却被接受了
因此,推断统计有犯错误的风险。
单尾与双尾问题:
双尾检验:零假设无方向性;(较多用)
单尾检验:零假设有方向性。

[展开全文]

四、方差分析

一、T检验的问题和解决方案

1.只能比较两组之间的平均数差异,多于两组不能用,加大了一类错误的概率,置信度变为0.95的n次方,置信度降低。
2.需要新方法绛系统误差(条件误差)和抽样误差(随机误差)分离。
总差异=条件误差+随机误差(条件误差>随机误差-->差异存在)
总差异=组间差异+组内差异
       组间差异=条件误差
       组内差异=随机误差
       组内差异>组内差异,就是发现了差异
总离差平方和=组内离差平方和+组建离差平方和

二、方差分析的原理

1.离差平方和sum of square (SS)可分解
2.自由度degree of freedom (df)可分解:总自由度可以分解为组间自由度和组内自由度
3.用平方和与自由度求均方mean os square (MS):组间平方和与组间自由度直逼为组间均方,组内平方和与组内自由度直逼为组内均方。
4.均方之比(方差分析)为F统计量:组间均方除以组内均方

三、方差分析统计前提

1.总体服从正态分布:样本足够大(>=30);样本量小时,通过卡方拟合度检验检测正态性;非正态分布时采用非参数检验。
2.组间变异、组内变异需要来自不同部分,需要明确、彼此相互独立
3.方差齐性:各组方差差别不大,要用方差齐性检验

[展开全文]

 四、单因素组间方差分析

1. 又叫完全随机方差分析,>=3组,每一组相互独立,只接受一种实验处理
分为 各组样本量相同(常见)和各组样本量不同两种。

五、方差分析事后检验

1.必要性:也叫平均数的逐对比较或多重比较。

2.手段众多,常用T检验(LSD,较宽松,容易发现差异)和q检验(HSD,较严格,有时与LSD法结果相矛盾)。

3.多因素分析结果中,如交互作用达到显著水平,要做简单效应检验。

六、方差分析的种类

按自变量个数:单因素、多因素

按自变量水平间的关系:组间(自变量相互独立)、组内(自变量相互关联)、混合(组间+组内)

七、方差分析的基本原理
平方和可分解

总平方和=组间平方和+组内平方和

[展开全文]

相关分析

一、含义与分类

根据两个变量的关联变化方向,分为正相关、负相关、零相关、非线性相关

根据两个变量的属性,分为
皮尔逊相关--等距变量
肯德尔相关--定序变量
斯皮尔曼相关--等距和定序
克莱默相关--称名/分类变量

二、皮尔逊相关分析

1.适用条件:两个变量:均为连续性(等距)数据、总体正态分布、数据成对、线性关系、排除共变因素影响(即不同时受第三个因素影响)

三、相关系数

绝对值:0-1之间
>0.7 高相关
0.4-0.7 中相关
<0.4 低相关
注意:相关关系中不存在因果之别,两个变量是共变关系。

[展开全文]