博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
day3课程笔记
阅读量:5255 次
发布时间:2019-06-14

本文共 1614 字,大约阅读时间需要 5 分钟。

************************************************

课程回顾:
(1)IP配置的常见问题。
(2)防火墙
(3)解压命令 tar -zxvf
(4) wordcount
************************************************
**1、什么是大数据?**
2002 大数据提出 美国引入。---麦肯锡报告。
维克托·迈尔-舍恩伯格---大数据之父
4V特征:
Volume(数据量大):PB级
Variety(数据多样性):文本、图像、视频、音频等
Velocity(输入和处理速度快):流式数据
Value(价值密度低):
## 积累很多的数据才能发掘大数据隐含的意义。 ##
## 只要能发挥和挖掘数据隐藏的价值,不用纠结与数据量大小 ##
大数据核心问题 ##存储、计算和分析##----通过组件(计算框架)解决了
**2、数据仓库和大数据**
(1)传统方式:DW(Data Warehouse),基于传统的关系数据库(Oracle、MySQL等),一般只做 查询分析,TD(Teradata 天睿)--数据仓库一体机。
(2)大数据的方式--分布式
GP:greenplum

**3、OLTP和OLAP**

(1)OLTP:Online Transaction Processing 联机事务处理:(insert update、delete)
ACID:所有的数据可追溯。-------传统关系型数据库(Oracle Mysql Postgresql等)
(2)OLAP:Online Analytic Processing 联机分析处理。
真正生产中是二者的结合:OLTP(后台操作 前台展示 数据设计等)+OLAP(Hive Hbase Spark等)。
### **4、Google的基本思想:三篇论文** 重点###
(1)GFS: Google File System----HDFS ---解决存储
a、数据库太贵。主要是为了解决 google搜索内容的存储问题。--造价低 易扩展。
b、倒排索引(Reverted Index):
int arry【】={1,2,3,4}
索引不一定提高查询速度。---key value
c、没有公布源码,----Hadoop之父 Doug Cutting
HDFS 默认文件块大小 128M(Hadoop 2.X) 64M(Hadoop 1.x),
默认3副本。
(2)MapReduce:分布计算模型
PageRank
(3)BigTable:大表
对HDFS进行封装和二次开发,提高查询效率。把所有数据存入一张表中,通过牺牲空间,换取时间
**5、Hadoop的简介**
http://hadoop.apache.org/
Hadoop YARN: A framework for job scheduling and cluster resource management.
Apache:HDFS+MapReduce+
## Yarn ##
https://hbase.apache.org/
**6、HDFS的体系架构**
HDFS 副本数可以再 hdfs-site.xml中修改。不超过机器个数 建议不超过3.
/opt/moudle/hadoop-2.7.3/etc/hadoop
HDFS=Namenode(主节点 名称节点)+SecondaryNameNode()+datanode(数据节点)
**7、MR编程模型**
包含两个阶段 key value 的设计是关键。
**8、大数据典型应用场景**

(1)商品推荐--协同过滤

(2)画像
(3)套牌车

转载于:https://www.cnblogs.com/jareny/p/10367933.html

你可能感兴趣的文章
vue: 代码小记
查看>>
viewpager 无网络的时候滑动异常
查看>>
十大开源Swift库开始你的下一个iOS项目
查看>>
python日志记录-logging模块
查看>>
linux grep命令详解
查看>>
数据库中对重复数据行的查询删除操作
查看>>
A post processing library that provides the means to implement image filter effects for three.js.
查看>>
poj-1423 NYOJ_69 数字长度 斯特林公式 对数应用
查看>>
Postman调试依赖登录接口的3种方法
查看>>
phpstudy升级mysql版本到5.7 ,重启mysql不启动
查看>>
什么样的经历,才能领悟成为架构师? >>>
查看>>
Cocos2d-x内置粒子系统
查看>>
Mysql 修改root 密码
查看>>
vue实现表计监测界面
查看>>
FileSystemWatcher 读取文件时出现被占用的解决方法
查看>>
js函数式编程
查看>>
windows下安装Python虚拟环境virtualenvwrapper-win
查看>>
【python3的学习之路十一】面向对象编程
查看>>
vuejs
查看>>
mysql 索引技巧
查看>>