************************************************
课程回顾: (1)IP配置的常见问题。 (2)防火墙 (3)解压命令 tar -zxvf (4) wordcount**************************************************1、什么是大数据?** 2002 大数据提出 美国引入。---麦肯锡报告。 维克托·迈尔-舍恩伯格---大数据之父 4V特征: 即 Volume(数据量大):PB级 Variety(数据多样性):文本、图像、视频、音频等 Velocity(输入和处理速度快):流式数据 Value(价值密度低): ## 积累很多的数据才能发掘大数据隐含的意义。 ## ## 只要能发挥和挖掘数据隐藏的价值,不用纠结与数据量大小 ## 大数据核心问题 ##存储、计算和分析##----通过组件(计算框架)解决了 **2、数据仓库和大数据** (1)传统方式:DW(Data Warehouse),基于传统的关系数据库(Oracle、MySQL等),一般只做 查询分析,TD(Teradata 天睿)--数据仓库一体机。 (2)大数据的方式--分布式 GP:greenplum**3、OLTP和OLAP**
(1)OLTP:Online Transaction Processing 联机事务处理:(insert update、delete) ACID:所有的数据可追溯。-------传统关系型数据库(Oracle Mysql Postgresql等) (2)OLAP:Online Analytic Processing 联机分析处理。 真正生产中是二者的结合:OLTP(后台操作 前台展示 数据设计等)+OLAP(Hive Hbase Spark等)。### **4、Google的基本思想:三篇论文** 重点### (1)GFS: Google File System----HDFS ---解决存储 a、数据库太贵。主要是为了解决 google搜索内容的存储问题。--造价低 易扩展。 b、倒排索引(Reverted Index): int arry【】={1,2,3,4} 索引不一定提高查询速度。---key value c、没有公布源码,----Hadoop之父 Doug Cutting HDFS 默认文件块大小 128M(Hadoop 2.X) 64M(Hadoop 1.x), 默认3副本。 (2)MapReduce:分布计算模型 PageRank (3)BigTable:大表 对HDFS进行封装和二次开发,提高查询效率。把所有数据存入一张表中,通过牺牲空间,换取时间**5、Hadoop的简介** http://hadoop.apache.org/ Hadoop YARN: A framework for job scheduling and cluster resource management. Apache:HDFS+MapReduce+ ## Yarn ## https://hbase.apache.org/**6、HDFS的体系架构** HDFS 副本数可以再 hdfs-site.xml中修改。不超过机器个数 建议不超过3. /opt/moudle/hadoop-2.7.3/etc/hadoop HDFS=Namenode(主节点 名称节点)+SecondaryNameNode()+datanode(数据节点)**7、MR编程模型** 包含两个阶段 key value 的设计是关键。**8、大数据典型应用场景**(1)商品推荐--协同过滤
(2)画像 (3)套牌车