EPS数据平台使用指南—分析预测篇

EPS数据平台采用SaaS(软件即服务)模式,通过云分析为用户提供高质量、高效率、低成本的数据处理、可视化展现、分析预测等软件服务,为科学研究或论文撰写提供专业强大的工具支持。

本篇章将以案例形式进行操作介绍。

比如,根据理论和经验分析,研究影响粮食产量的主要因素有化肥施用量、粮食播种面积、成灾面积、农业机械总动力以及第一产业就业人数。

一、 添加序列

首先用户由跨库检索或库内检索功能查找指标(见《基础使用篇》),通过“添加序列”功能添加到“云分析”中。

点击“添加序列”,在弹出框中选择已有数据集或新建数据集,点击确定即可。

注意:“添加序列”功能仅适用于时间序列,并且对于IP登录用户需要登录“我的数据中心”。

二、 云分析

在云分析中,平台提供图表、数据预处理、相关性分析、回归以及时间序列分析等功能。

点击 “云分析”进入,在页面左侧找到添加的数据库“粮食生产”,时间跨度为1990年到2016年。

1. 数据预处理

先对所有序列取自然对数,点击“对数”功能,在弹出框中选择变量、方法,点击应用即可得到结果。

2. 相关性分析

在对变量间进行双变量相关性分析,点击“双变量”,选择影响粮食产量的取自然对数后的序列,选择方法,点击应用,得到双变量相关分析结果。

有分析结果可以看出:S2和S6、S2和S8、 S6和S8之间有较强的相关性,可以初步判断 S2、S6、S8之间可能存在多重共线性,可以考虑从模型中剔除S2、S6.

3. 线性回归

最后进行回归分析,根据上述双变量相关分析结果,点击“线性回归”功能,在弹出框中变量选择S4,自变量选择S8、S10、S12,选择方法、保存项、设置置信水平,点击应用。

输出结果:

由F=631.2578,p<0.05统计学显著,并且,调整R^2=0.9864,可以看出粮食产量与自变量总体线性关系显著。

此外, S8、S10、S12通过t检验。 模型调整R^2=0.9864,表明模型拟合程度比较理想。通过模型图也可以看出,拟合值和实际值之间误差较小。

另外,由于模型使用的是时间数据建模,因此残差可能存在自相关问题。查看残差图,认为残差序列可能不存在显著的自相关问题。

模型表达式为

结合标准化回归系数,不难看出,化肥施用量与粮食播种面积对粮食产量影响为正,即在其他条件不变的情况下,化肥用量值在一定范围内越大,粮食播种面积越大,粮食产量越高。并且,化肥施用量的影响相对更大些。成灾面积与粮食产量成负相关。在其他条件不变的情况下,成灾面积越大,粮食产量越低。 另外,如果要对添加指标进行编辑,点击“管理我的序列”进入云分析管理页面,对数据集或指标进行编辑管理。