一、导入数据

(1)点击菜单栏中的文件夹
01
(2)选择文件类型并选择文件
02

(3)比如选择一个csv文件,选择过后按照步骤一步一步进行设置,不过大部分步骤都是默认就行,不需要更改

03
最终导入的数据就类似Excel的表格一样,不过i每一列都是一个变量,也就是SPSS中最小的统计单位。

二、数据选项卡(原列操作)

1、数据选项卡下常用操作
10
2、数据操作说明
(1)定义变量属性:可以更改变量类型和变量数据大小的限制

(2)个案排序:对数据视图中的某个个案进行排序,具体排序规则可以点进去选择

(3) 变量排序:对变量视图中某个变量进行排序,具体规则可以点进去选择

(4)总:对数据按照类别进行汇总,比如三个班级的学生成绩表格,可以按照班级把学生成绩的平均值等等汇总到另外一个表格,该表格就会显示比如按班级显示各个班级的成绩平均值等

(5)拆分文件:实现输出图形表格的合理拆分,比如一个公司有8个部门,现要求分男女比较各个部门的人员工资情况,理论上我们用选择个案(见下条),逐个选择男女与部门需要操作28次,由此画出28张图表。利用拆分文件,这个时候可以选择比较组或者按组来组织输出,然后分组依据就是部门与性别,在利用下面会讲到的数据描述就可以实现预期效果。

(6)转置:行与列进行转换,也就是行转列+列转行

(7)合并文件:有两种文件的合并,添加个案可以实现两个文件的纵向合并,添加变量可以 两个文件的横向合并

(8)选择个案:实现选择表格中符合条件的个案然后对其进行相应操作,点击进去后会有各种选择方式,比如如果满足什么条件才选择,随机选择百分之多少等等

(9)重构:实现把一个表格的若干个变量变为同一个变量等进行表格的合适转换

三、转换选项卡(会产生新列)

1、选项卡内容
30
2、 重新编码为不同变量
可以把原来的变量或者变量的范围重新定义为新的变量,比如现有一个班级的学生成绩,要求分心50-70分,70-90分 90-100分的同学所占比例,平均值等,现在就可以利用重新编码为不同变量,把上述范围重新编码为新的变量(名字可以自己任意选取),具体操作点击进去之后比较清楚。

3、计算变量
实现对原来变量的重新计算从而产生新的变量,比如对原来变量进行乘以10操作产生新的变量等等,产生的变量名都是可以自己选择的

四、分析选项卡(最重要)

1、选项卡内容

40

2、描述统计(实现对表格中变量的各种类型的描述统计)

(1)频率:实现某一变量的频率统计,统计显示可以显示其平均值等等,可以选择用条形图或者什么其他图形进行描述,比如对于各个部门的工资可以进行分部门描述各个部门工资平均值或者其所占整体比率。通过频数分布表、直方图,以及集中趋势和离散趋势的各种统计量,描述数据的分布特征。

(2)描述:实现某一变量的具体描述,比如具体描述某一变量的平均值,峰值,中位数等等,对于上述的频率则是注重于该变量某属性所占份额即频率的描述。通过描述性统计,可以计算描述数据的集中趋势和离散趋势的各种统计量,还可以做标准化变换(变成均值为0,方差为1的数据

(3)探索:实现分因子列表对因变量列表的描述,例如可以实现分分部门(此时部门为因子列表中元素),对各个部门的工资进行画直方图,茎叶图或者进行相关数据的统计操作,且一次操作可以达到显示所有部门的效果。通过探索性分析,可以判断数据有无离群点(outliers), 极端值(extreme values); .
进行正态分布检验和方差齐性检验;了解数据指标之间差异的特征。

3、比较平均值

(1)单样本T检验

实现某一已知数据与另外的给定数据进行检验判断有没有显著性差异,比如给出2021年的全国人平均消费,现在给出2021年各个地区的人均消费,利用单样本T检验就可以比较这两年的人均消费是否有显著差异(在进行该检验时,最后会自动计算出2021年的全国人平均消费)

(2)独立样本T检验

实现相互独立的样本(两组样本个案数目可以不同,个案顺序可以随意调整)的均值显著性差异检验,比如给出投资类型有两种,需要比较他们对应的投资是否有显著性差异,检验变量为投资额度,分组变量为投资类型。

(3)成对样本T检验

实现配对的两个样本(两组样本的样本数必须相同两组样本观测值的先后顺序是一一对应的,不能随意改变)之间均值的显著性差异。比如对于两份调查问卷,给相同的一些人填写,每份调查问卷对应填写得到的相应的分数,现比较这两份所得分数均值是否有差异,即把这两组选为相应的配对组即可

(4)单因素ANOVA检验

实现多个因子都可以决定某一变量时,他们对变量的影响有无显著性差异,比如投资类型有两种以上,现在需要比较投资类型对应的投资有无显著性差异,此时,运用该检验方法时,因变量列表为投资额度,因子为投资类型。

(5)注意

比较独立样本与成对样本检验中,如果上述条件都可以适用,还需根据已知数据的形式进行选择,其实感觉这两种实现效果都是差不多的。

4、一般线性模型

(1)单变量

研究两个及两个以上控制变量是否对观测变量产生显著影响。比如比较工人与机器(其中机器有三种,工人有四种)对于产量的影响。此时因变量为产量,固定因子为工人与机器,根据输出便可比较。这个时候如果存在工人与机器之外的第三种变量对产量有影响,为了消除这种影响而只是考虑工人与机器对于产量的影响,这个时候只需要将这第三种变量作为协变量既可。

(2)双向量

检验两个变量是否相关:比如检验身高与体重的相关性,这个时候也可以先画一个散点图,点进去之后具体的检验函数什么的都可以自由选择。

(3)偏相关

由于其他变量的影响,所以在检验两个变量是否相关的时候,通过相关系数难以得出具体准确的结果,这个时候就需要剔除该变量的影响。比如检验商业投资与地区经济增长相关性时,游客增长会对此产生影响。所以利用偏相关检验时,变量为商业投资与地区经济增长,控制变量为游客增长,这样便可以消除游客增长对于检验的影响。

5、相关分析

(1)双变量相关分析:分析两个变量之间是否存在相关关系。

(2)偏相关分析:剔除其他变量的影响的情况下,计算两变量之间的相关系数。

6、回归分析

(1) 线性

实现因变量与自变量的线性回归关系,也可以给出具体的线性回归方程。比如得出现在工资与工龄之间的线性关系,这里因变量是工资,自变量是工龄。当然自变量也可以是多个,比如影响工资的还有职位,当求多个自变量与因变量的关系时,只是在自变量那里填多个自变量即可,不过这里需要把因变量下面的选择有原来的输入改为步进(原来自变量只有一个时选择步进)

(2)曲线估计

当两个变量之间关系无法用线性表示就可以化为曲线估计,可以先求出这两个变量数据的散点图,然后根据散点图估计大致的曲线关系:比如是二次还是对数关系之类。比如求工资与工龄关系,进去曲线估计后,因变量选择工资,变量时工龄。对于下面的模型就根据散点图选择。输出结果后可以很清楚比较哪种曲线拟合最好之类。

(3)线性回归

一个因变量(dependent) 与多个自变量(independents) 之间存在线性数量关系。

(4)曲线拟合

可以完成11种曲线的自动拟合(根据需要进行选择),并进行参数估计与检验,绘制拟合图形等。自变量( independent)只能选- -
个或者使用时间作为自变量,即只能做一元函数的曲线拟合。因变量(dependent)可以选多个,将分别做多个一元函数的拟合。

(5)二分类Logistic回归

对于因变量为二分类的定性数据( 如性别)所采取的一种回归分析方法。

(6)非线性回归

一个因变量(dependent) 与多个自变量之间存在非线性数量关系。利用下测的计算板和函数框输入模型的表达式(ModelExpression),模型表达式中应至少包含一个自变量。对于使用的参数,要输入其名称和初始值。

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐