侯圣文大数据体验课笔记,大数据基础,离线数仓,实时计算
侯圣文大数据体验课笔记一、玩转大数据和互联网大厂大数据解析大数据职位有广袤的海洋:未来比较吃香的ABCA:AI人工智能B:Big Date大数据C:云计算人工智能算逛吃看买肉眼检索数据库查询智能推荐存脑袋海报数据库DB大数据BD客户买东西的演进过程:超市买物品,寻找商品只能靠人走看买,有哪些商品在大脑里存储海报:寻找商品在海报上肉眼检索,物品在海报上记录比较先进:自己家附近3公里内,有点像早期的外
侯圣文大数据体验课笔记
一、玩转大数据和互联网大厂大数据解析
大数据职位有广袤的海洋:
未来比较吃香的ABC
A:AI人工智能
B:Big Date大数据
C:云计算
人 | 工 | 智 | 能 | |
算 | 逛吃看买 | 肉眼检索 | 数据库查询 | 智能推荐 |
存 | 脑袋 | 海报 | 数据库DB | 大数据BD |
客户买东西的演进过程:
- 超市买物品,寻找商品只能靠人走看买,有哪些商品在大脑里存储
- 海报:寻找商品在海报上肉眼检索,物品在海报上记录
- 比较先进:自己家附近3公里内,有点像早期的外卖,买什么在在线购物平台上,寻找:直接搜索,数据存储在数据库中
- 智能推荐:基于大数据统计,发现人们买东西的时候,出现捆绑消费的习惯,把捆绑消费的东西提前放在一起,有点像现在网购,你买个手机,给你推荐同手机型号的的手机壳。寻找商品智能推荐,数据存储在大数据BD.
智能:对用户来说,体验比较好。对老板来说赚钱比较多。
阶段1:价格
阶段2:价值
阶段3:爽,价值观
分布式
分布式系统,可以类比显示生活中的牛拉物,我们不可能创造出无穷无尽的牛,来拉取比较大的东西。计算机我们不能期望制造一台无穷大的机器,要留多少个卡槽合适呢,插硬盘,显卡,这种怎么设计呢。显然不太现实。牛,我们用多个牛。不能指望一头牛变得无穷大。不能指望一个机器无穷大。
大数据分布式存储,分布式计算的演进过程。
从DB到BD
数据库(DB)技术发展的三个时代
-
数据库发展的三个时代,成就了三种商业形态
-
商业数据库时代:成就了商业软件行业;
-
开源数据库时代:成就了互联网
-
新(开)数据库时代:是商业和开源、SQL和NewSQL交融的时代,成就了云和数字化时代
-
Database | BigData |
---|---|
OLTP交易 | OLAP分析 |
ACID事务 TB | CAP BASE PB |
业务系统 | 洞察 |
大数据的3v特征–多块好省
多:规模大、多样性
快:高速性
好
省
腾讯的大数据演进之路
阿里的数据演进之路
Hadoop Core
存 | 账本 | 表格 | 云ERP |
---|---|---|---|
算 | 算盘 | 计算器 | ? |
房子丢失,每份数据存三份
多副本还有一个好处就是可以分布式计算
副本是怎么放的:
首先,客户端会挑选一个离客户端近的节点,然后再选一个跟第一个节点不同的服务器下的空闲节点(发起挑选第二个节点的是第一个副本的集群),第二个副本为了效率,会找一个同一机架下的另外一个空闲节点。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DJ8ettH7-1652168221131)(C:/Users/MSI-NB/AppData/Roaming/Typora/typora-user-images/image-20220508223259757.png?lastModify=1652154537)]
MapReduce的Map阶段
计算的时候一个数据量过大及会通过map分给不同的节点。并把数据变成(the,1)二元组的格式
MapReduce的shuffle&sort
将相同的key分成相同的组,
MapReduce的Reduce阶段
相同的key,合并对应的value
MapReduce 的并行执行,Mappers提速
MapReduce—应用案例:网页访问延迟分析
统计网页中部分访问的时长;
大数据的架构模型永远遵循I-P-O模型
输入-计算-输出
技术:是一个习得的东西,自行车,一样,一旦学会终生受益。
二、离线数仓搭建哪些你不知道的点
1、数据仓库定义及演进史
2、数据仓库及核心概念
3、数据仓库建模流程讲解
4、走进大厂数据仓库搭建案例
数据仓库类似于:
淘宝开时尚潮流店,流程:生产工厂、物流公司、商品仓库、时尚潮流店。
数仓的流程:数据库、ETL、数据仓库、可视化看板。
模型:E-R、维度
E-R:支持多对多(N:N)关系 相对容易扩展 高度结构化
维度模型:面向主题、适合多维度分析。
概念模型、逻辑模型、物理模型
概念模型:可以看到整体规划小区有哪些功能区:商家、商品、买家、订单
逻辑模型:类似于图纸,显示生活中卖房子的户型图,对应中文字段信息
物理模型:煤火电是怎么走的。对应,英文库表
分层
分层:是为了在管理和使用数据时能清洗、有序、高效。
事实表:
也叫度量,使用户评价业务的数据值型数据。是原子指标,不能再分的。
维度:
数据观察的角度,验证指标。
事实,我想找个女朋友是一个实时。维度,我想找个什么样的,身高,体重,年龄等
数据调研
需求调研
数据产品经理做的。1、爆款商品的排行数据。2、双11的销售额有哪些。3财务数据:营收额,费用。4有多少商家入驻,总共有多少商品了。5平台上的用户量有多少。
数仓建模:慢就是快。
业务调研:
看数据都有谁看,商家产品部,平台运营部,CEO…。
数据调研:
数据是怎么产生的:1.商品购买流程。2.线上活动流程。3.客服售后流程
数据长什么样?1、有哪些数据库,数据表。2、有哪些字段,字段含义,字段类型。3.数据的更新方式,更新时间。
数仓规划
分析主题
数据分层
数据事实
数据维度
第三步:模型设计
星型模型,雪花模型
第四步:模型开发
三、带你走出实时数据计算的坑
实时计算:
STORM
SPARK STREAME
FLINK
实时大屏;
小汽车绿灯状态下,就是流式,源源不断的进去。
直饮机。直接来了过滤,没有等一等。
车流的例子也能
当接到电话的时候同时收到防诈骗的短息。
车路协同
机场高速,实时技术,摄像头,实现快速扣费,极大的提升了通信效率,无感通行。提升出行体验。
2、三大实时计算框架比较。
spark streaming :
storm 快、准确不强,吞吐能力有限。Twitter 自研的
flink
flink:
快速灵动;
4大根技术
容错机制:一个一个栅栏分一段一段的。
状态管理
时间窗口
时间语义
2
等等我让我数清楚:
核酸检测:等等我,可能比我早捅,但是检测时间比较晚
“无界数据流”中的“有界数据集”:
数车流:不管是按照时间3秒数、还是三辆数。分段数的对象就是有界数据集
更多推荐
所有评论(0)