本文浪尖主要讲讲数据分析企业内的工作流程。

随着,云计算使得计算能力的提示,大数据技术的飞速发展,数据也是备受企业重视,企业内部都是在想法设法的得到你的数据,分析你,然后从这个过程中获利。强调一点,不仅是从数据分析的结果中获利,比如推荐系统等,而且从数据采集到展示,企业都是可以获利的。由此可见,数据的重要性。

数据分析既然如此重要,那么数据分析必然也衍生出了一套完整的技术流程和技术框架,而这套技术流程及框架是本文讨论的重点。

数据科学的工作流程

现在企业中标准的数据分析过程如下:

首先,我们生活在这个世界中。在这个世界上,有很多人在从事各种各样的活动。有些人

在使用Google+,另外一些人则在奥运会上一较高下;有些人在制造、发送垃圾邮件,有

些人则在医院里抽血。假设我们拥有其中某项活动的数据。

具体来说,以原始数据为起点,诸如日志、奥运会纪录、安然公司员工的电子邮件、遗传

物质记录(需要注意的是,在我们拿到这些原始数据时,这项活动中某些方面的信息已经

缺失了)。我们需要处理这些原始数据,使得其便于分析。因此我们创建出管道对数据进

行再加工:联合、拼凑、清理,随便你叫它们什么好了,就是要对数据进行再加工。我们

可以使用Python、shell 脚本、R、SQL 完成这件任务。

最终得到格式化好的数据,像下面这种由列构成的数据:

姓名| 事件| 年份 | 性别 | 时间

在标准的统计学课程中,通常从一份干净有序的数据文件开始,但在现实

中,你通常不会有这么好的运气。

在拿到这份干净的数据后,我们应该先做一些探索性数据分析。在这个过程中,我们或许

会发现数据并不是那么干净,数据可能含有重复值、缺失值或者荒谬的异常值,有些数据

未被记录或被错误地记录。在发现上述现象时,我们不得不回过头采集更多的数据,或者

花更多的时间清理数据。

然后,我们使用一些算法,比如k 近邻、线性回归、朴素贝叶斯等设计模型。选取何种模

型取决于要解决的问题,这可能是一个分类问题、一个预测问题,或者只是一个基本的描

述问题。

这时就可以解释、勾勒、报告或者交流得到的结果。可以将结果报告给老板或同事,或者

在学术期刊上发表文章,或者走出去参加一些学术会议,阐述我们的研究成果。

如果我们的目标是开发一款数据产品或其产品原型,例如垃圾邮件分类、搜索排名算法、

推荐引擎等。数据科学和统计学的不同之处就体现出来了,数据产品最终会融合到日常生

活中,用户会和产品产生交互,交互会产生更多的数据,这样形成一个反馈的循环。

这和天气预报大相径庭,在预测天气时,你的模型对于结果没有任何影响。比如,你预测

到下星期会下雨,除非你拥有某种超能力,否则不是你让天下雨的。但是假如你搭建了一

个推荐系统,证明“很多人都喜欢这本书”,那就不一样了,看到这个推荐的人没准觉得

大家都喜欢的东西应该不会太差,也喜欢上这本书了,这就形成了反馈。

在做任何分析时,都要将这种反馈考虑在内,以此对模型产生的偏差进行调整。模型不仅

预测未来,它还在影响未来。

一个可供用户交互的数据产品和天气预报分别处于数据分析的两个极端,无论你面对何种

类型的数据和基于该数据的数据产品,不管是基于统计模型的公共政策、医疗保险还是被

广泛报道的大选调查,报道本身或许会左右观众的选票,你都要将模型对你所观察和试图

理解的现象的影响考虑在内。

数据科学的基本技术架构支持

这部分不多说,直接上个宜人贷的反欺诈平台架构图。

数据科学家在数据科学工作流程中的角色

到目前为止,所有这一切仿佛不需要人工干预,奇迹般地发生了。这里说的“人”,是指

那些“数据科学家”。总得有人做出决定:该收集哪些数据?为什么要收集这些数据?她

还要提出问题,做出假设,制定解决问题的方案。她就是数据科学家,或者她是我们推崇

的数据科学团队。

让我们重新修订以前的流程,至少增加一层,来表明数据科学家需要全程参与到这一流程

中来,他们不但需要在流程的较高层次上工作,还需要亲手编写程序,如图

本文参考自,数据科学实战。机器学习系列pdf,请在公众号菜单栏微店里获取。

推荐阅读:

1,金融反欺诈场景下的Spark实践

2,超越Spark,大数据集群计算的生产实践

3,Phoenix边讲架构边调优


关于Spark学习技巧

kafka,hbase,spark,Flink等入门到深入源码,spark机器学习,大数据安全,大数据运维,请关注浪尖公众号,看高质量文章。

更多文章,敬请期待


Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐