day3课程笔记-白红宇

day3课程笔记

阅读量：5255 次

发布时间：2019-06-14

本文共 1614 字，大约阅读时间需要 5 分钟。

************************************************

课程回顾：

（1）IP配置的常见问题。

（2）防火墙

（3）解压命令 tar -zxvf

(4) wordcount

************************************************

**1、什么是大数据？**

2002 大数据提出美国引入。---麦肯锡报告。

维克托·迈尔-舍恩伯格---大数据之父

4V特征：

即

Volume（数据量大）：PB级

Variety（数据多样性）：文本、图像、视频、音频等

Velocity（输入和处理速度快）：流式数据

Value（价值密度低）：

## 积累很多的数据才能发掘大数据隐含的意义。 ##

## 只要能发挥和挖掘数据隐藏的价值，不用纠结与数据量大小 ##

大数据核心问题 ##存储、计算和分析##----通过组件（计算框架）解决了

**2、数据仓库和大数据**

（1）传统方式：DW（Data Warehouse），基于传统的关系数据库（Oracle、MySQL等），一般只做查询分析，TD（Teradata 天睿）--数据仓库一体机。

（2）大数据的方式--分布式

GP：greenplum

**3、OLTP和OLAP**

（1）OLTP：Online Transaction Processing 联机事务处理：（insert update、delete）

ACID：所有的数据可追溯。-------传统关系型数据库（Oracle Mysql Postgresql等）

（2）OLAP：Online Analytic Processing 联机分析处理。

真正生产中是二者的结合：OLTP（后台操作前台展示数据设计等）+OLAP（Hive Hbase Spark等）。

### **4、Google的基本思想：三篇论文** 重点###

（1）GFS: Google File System----HDFS ---解决存储

a、数据库太贵。主要是为了解决 google搜索内容的存储问题。--造价低易扩展。

b、倒排索引（Reverted Index）：

int arry【】={1,2,3,4}

索引不一定提高查询速度。---key value

c、没有公布源码，----Hadoop之父 Doug Cutting

HDFS 默认文件块大小 128M（Hadoop 2.X） 64M（Hadoop 1.x），

默认3副本。

（2）MapReduce:分布计算模型

PageRank

（3）BigTable：大表

对HDFS进行封装和二次开发，提高查询效率。把所有数据存入一张表中，通过牺牲空间，换取时间

**5、Hadoop的简介**

http://hadoop.apache.org/

Hadoop YARN: A framework for job scheduling and cluster resource management.

Apache：HDFS+MapReduce+

## Yarn ##

https://hbase.apache.org/

**6、HDFS的体系架构**

HDFS 副本数可以再 hdfs-site.xml中修改。不超过机器个数建议不超过3.

/opt/moudle/hadoop-2.7.3/etc/hadoop

HDFS=Namenode（主节点名称节点）+SecondaryNameNode（）+datanode（数据节点）

**7、MR编程模型**

包含两个阶段 key value 的设计是关键。

**8、大数据典型应用场景**

（1）商品推荐--协同过滤

（2）画像

（3）套牌车

转载于:https://www.cnblogs.com/jareny/p/10367933.html

你可能感兴趣的文章

十大开源Swift库开始你的下一个iOS项目

A post processing library that provides the means to implement image filter effects for three.js.

查看>>

poj-1423 NYOJ_69 数字长度斯特林公式对数应用

查看>>

Postman调试依赖登录接口的3种方法

查看>>

phpstudy升级mysql版本到5.7 ，重启mysql不启动

查看>>

什么样的经历，才能领悟成为架构师？ >>>

FileSystemWatcher 读取文件时出现被占用的解决方法

查看>>

js函数式编程

查看>>

windows下安装Python虚拟环境virtualenvwrapper-win

查看>>

【python3的学习之路十一】面向对象编程