大数据分析(一)——虚拟机环境配置
虚拟机环境配置全流程介绍
大数据这个词已经是各行各业的朋友们都听说过的词,但在实践的层面来说,什么是大数据分析呢?作为同样初入门的我,也不懂那些一套一套的理论了,姑且写一篇简单的入门记录。可能在理论上不够严谨,仅供同样初入门的朋友看一看吧。
什么是大数据
很多很多的数据。“大”是规模大,体现在数据量特别特别多。
怎么找到大数据分析相关的工作
在看招聘岗位JD的时候,我发现几个关键词总是在相对高薪的岗位要求中出现:Spark、Hadoop、Hive、linux、shell。这都是什么呢?
Spark和Hadoop都是大数据框架,其内部包括多个功能模块,Hive就是Hadoop这个大框架下的一个功能模块。打个比方:Hadoop是一辆车,Hive是方向盘。Hive其他很多功能模块一起组成了Hadoop,就像方向盘和其他很多零部件一起组成了一辆车。(Spark也是一辆车,它也有它的零件们,在此不多说)
准确的说,linux是一个内核。内核是操作系统的一部分。而我们平时常说的windows和macOS,都是操作系统,Windows的内核是NT,macOS的内核是XNU混合内核。那么以Linux为内核的操作系统/Linux的发行版本都有哪些呢?最有名的两个当属Ubuntu和Cent OS,还有很多其他,详见常见Linux发行版本(转载)
虽然但是,现在大家都是用Linux这个词笼统地指以Linux为内核的操作系统。我猜测,是因为以Linux为内核的操作系统里还没有出现一个非常非常牛的,以至于足够占据统治地位的操作系统。
shell是Linux命令行解释器,类似windows下的cmd命令。笔者没有用过macOS系统,故不类比到macOS了。
在工作中,会用到虚拟机
虚拟机的优点很多,在此不赘述。对于贫穷的我而言,如果我需要用到linux和windows两个系统,相比于购买两台物理实体计算机,我不如买一台安装着windows的物理实体计算机,然后在上面开一个虚拟机运行linux系统。
当然,虚拟机不是linux的特有。我的一个朋友就是买了macbook,然后虚拟机开了windows系统(因为她不想花钱买正版office哈哈)。
虚拟机配置——virtualbox
我以virtualbox为例,因为它免费。官网下载,无脑下一步,完成安装。
虚拟机上的操作系统配置——Ubuntu
我以Ubuntu为例,因为它免费。安装步骤详见在Windows中使用VirtualBox安装Ubuntu_厦大数据库实验室博客
在安装完成后重启Ubuntu时,可能会遇到提示:Please remove the installation medium,then press enter。直接右上角叉掉,选择强制退出。
然后再次在virtualbox里点击显示。
点完显示之后,应该是这样的:
此时虚拟机和主机还是隔绝的,你无法在两者之间复制黏贴。解决方案:在vbox里设置-常规-高级-双向。并安装增强功能。
重启后应该可以正常地在主机和虚拟机之间拖拽文件。
但是我不能在主机和虚拟机之间复制粘贴文本。。。。头大
正常关闭虚拟机,在VBox里勾选“使用主机输入输出(I/O)缓存”
勾选“固态驱动器”
再启动一下试试。
还不行。参考Virtual Box(vbox)增强工具小坑 无法复制粘贴 无法拖动文件 未能加载虚拟光盘 - 秋空一点青 - 博客园
还不行。弹出增强光盘,然后再设备- 安装增强功能
终于可以啦!
更多推荐
所有评论(0)