大数据这个词已经是各行各业的朋友们都听说过的词,但在实践的层面来说,什么是大数据分析呢?作为同样初入门的我,也不懂那些一套一套的理论了,姑且写一篇简单的入门记录。可能在理论上不够严谨,仅供同样初入门的朋友看一看吧。

什么是大数据

很多很多的数据。“大”是规模大,体现在数据量特别特别多。

怎么找到大数据分析相关的工作

在看招聘岗位JD的时候,我发现几个关键词总是在相对高薪的岗位要求中出现:Spark、Hadoop、Hive、linux、shell。这都是什么呢?

Spark和Hadoop都是大数据框架,其内部包括多个功能模块,Hive就是Hadoop这个大框架下的一个功能模块。打个比方:Hadoop是一辆车,Hive是方向盘。Hive其他很多功能模块一起组成了Hadoop,就像方向盘和其他很多零部件一起组成了一辆车。(Spark也是一辆车,它也有它的零件们,在此不多说)

准确的说,linux是一个内核。内核是操作系统的一部分。而我们平时常说的windows和macOS,都是操作系统,Windows的内核是NT,macOS的内核是XNU混合内核。那么以Linux为内核的操作系统/Linux的发行版本都有哪些呢?最有名的两个当属Ubuntu和Cent OS,还有很多其他,详见常见Linux发行版本(转载)

虽然但是,现在大家都是用Linux这个词笼统地指以Linux为内核的操作系统。我猜测,是因为以Linux为内核的操作系统里还没有出现一个非常非常牛的,以至于足够占据统治地位的操作系统。

shell是Linux命令行解释器,类似windows下的cmd命令。笔者没有用过macOS系统,故不类比到macOS了。

在工作中,会用到虚拟机

虚拟机的优点很多,在此不赘述。对于贫穷的我而言,如果我需要用到linux和windows两个系统,相比于购买两台物理实体计算机,我不如买一台安装着windows的物理实体计算机,然后在上面开一个虚拟机运行linux系统。

当然,虚拟机不是linux的特有。我的一个朋友就是买了macbook,然后虚拟机开了windows系统(因为她不想花钱买正版office哈哈)。

虚拟机配置——virtualbox

我以virtualbox为例,因为它免费。官网下载,无脑下一步,完成安装。

虚拟机上的操作系统配置——Ubuntu

我以Ubuntu为例,因为它免费。安装步骤详见在Windows中使用VirtualBox安装Ubuntu_厦大数据库实验室博客

在安装完成后重启Ubuntu时,可能会遇到提示:Please remove the installation medium,then press enter。直接右上角叉掉,选择强制退出。

然后再次在virtualbox里点击显示。

点完显示之后,应该是这样的:

此时虚拟机和主机还是隔绝的,你无法在两者之间复制黏贴。解决方案:在vbox里设置-常规-高级-双向。并安装增强功能。

 重启后应该可以正常地在主机和虚拟机之间拖拽文件

但是我不能在主机和虚拟机之间复制粘贴文本。。。。头大

正常关闭虚拟机,在VBox里勾选“使用主机输入输出(I/O)缓存”

勾选“固态驱动器”

 再启动一下试试。

还不行。参考Virtual Box(vbox)增强工具小坑 无法复制粘贴 无法拖动文件 未能加载虚拟光盘 - 秋空一点青 - 博客园

还不行。弹出增强光盘,然后再设备- 安装增强功能

终于可以啦!

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐