语言、数据与研究：阿檀小倪讲量化 - U讲堂

回归是以相关为基础和前提

相关是描述两个变量之间的联系，但是不能说明因果

回归则是通过模型，用一些变量来预测另外一个便俩个，从而进一步形成因果性的解释。

没有显著相关，就没有回归

相关越高，回归结果就越好

回归也有强度和方向

回归的优越性，既可以描述线性关系，曲线关系也可以的

回归需要区别自变量和因变量（相关的两个变量是平等的，可以互相）

回归可以计算多个自变量对因变量的影响（相关则是只能两个变量之间的关系）

多个变量的前提：

自变量和因变量之间有显著的相关

自变量之间的相关不能太高（人为扭曲关系）

自变量越多，所需要的样本量越多

一个自变量对应至少10个样本

比较不同的自变量的预测力，哪些自变量对因变量影响较强或较弱：标准多项回归

不同自变量对因变量的单独影响：层级多项回归

操作：

先列自变量，最后一列因变量

先进行相关：分析---相关---双变量---皮尔逊---点击要分析的变量

如果有两个变量高度相关，就得把这两个变量分开进行分析

再进行回归：分析--回归--线性--点击相应的因变量和所分析的自变量（下一张（层级多项回归））---方法--进入---统计量--共线性诊断--确定

如何阅读和解释图表：

模型汇总：R方：整个回归模型所有的自变量能够解释因变量中多少的变异

anova：F值： sig:显著性

多个自变量中哪个对因变量的贡献更大？

表格系数：关注标准系数（越高），t值（越高）和sig（越低），就表明自变量和因变量之间的关系越紧密，预测力越高

有一栏共线性统计量：这是检验自变量之间是否过高相关，容差（大于0.1）或者vif（小于10）表明自变量之间的共线性水平很低，表示不能同时放到一个模型中来预测因变量