数据仓库概述
数据仓库概念
数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。
知识源于积累,登峰造极源于自律
数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。
more >>SparkStreaming 其实就是微批次处理架构
Spark Streaming他是spark当中处理流式数据的一个模块,Spark SQL是spark当中用来处理结构化数据的一个模块,假如说kafka过来的数据,不是在HDFS或者Hive那张表里面,那这时候你过来一点数据我就计算一点数据,这就叫流式处理,流式化处理我们有Storm(https://storm.apache.org/) 但是他已经过时了,Flink太先进.
RDD有创建,转换,输出;
Spark SQL当中有DataFrame ,DataSet的创建,转换;
Spark SQL的转换简单,就是我们写的SQL,因为因为他还是SQL风格;
1 | 文章收录的是公众号: 大数据公羊说 的 面试题总结. |
本文目录概览
hive 里面其实我们可以设置reduce的个数. 类似于在mapreduce里面,最后封装一个Driver一样. 可以最后写我们需要运行多少个reducer. set mapreduce.job.reduces=3; 设置reducer个数为3. 但是在orderBy 里面,就算你最后设置了属性也不会生效.
more >>标签列表:
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia-plus根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true
2022-03-29
2022-03-29
#html+css
2022-03-29
#html+css
2022-03-29
#html+css
2022-03-29
#html+css
2022-03-25
#工具
2022-03-23
#工具
2022-03-23
#工具
2022-03-23
#数仓建模
2022-03-16
#hive#pgsql#Hologres
2022-03-10
#spark#SparkStreaming
2022-03-10
#spark
2022-03-09
#flink
2022-02-28
#hive
2022-02-28
#hive
2022-02-20
#Flink
2022-02-19
#Flink
2022-02-19
#Flink
2022-02-19
#Flink
2022-02-19
#Flink
2022-02-19
#Flink
2022-02-17
#Flink
2022-02-17
#Flink
2022-02-17
#Flink
2022-02-17
#Flink
2022-02-17
#Kafka
2022-02-16
#Flink#clickhouse
2022-02-16
#clickhouse
2022-02-16
#clickhouse
2022-02-16
#clickhouse
2022-02-16
#clickhouse
2022-02-16
#shell
2022-02-16
#数据仓库
2022-02-16
#数据仓库
2022-02-15
#Flink
2022-02-15
#轻松一刻
2022-02-15
#spark#spark SQL
2022-02-15
#spark#spark SQL
2022-02-15
#Kafka
2022-02-15
#Kafka
2022-02-15
#Kafka
2022-02-15
#Flink
2022-02-15
#Flink
2022-02-15
#Flink
2022-02-14
#Flink
2022-02-14
#Flink
2022-02-14
#Flink
2022-02-14
#Flink
2022-02-14
#Flink
2022-02-14
#Flink
2022-02-14
#Flink
2022-02-14
#Flink
2022-02-14
#Flink
2022-02-14
#Flink
2022-02-14
#Flink
2022-02-14
#Flink
2022-02-14
#Flink
2022-02-12
#hadoop#yarn
2022-02-11
#Flink
2022-02-11
#Flink
2022-02-11
#Flink
2022-02-11
#Flink
2022-02-11
#Flink
2022-02-11
#Flink
2022-02-10
#Flink
2022-02-10
#Flink
2022-02-10
#kafka
2022-02-10
#hadoop#机架感知
2022-02-10
#Flink
2022-02-07
#Flink
2022-02-07
#Java#Mybatis
2022-02-07
#Java#Mybatis
2022-02-07
#Java#Mybatis
2022-02-07
#Flink
2022-01-31
#动态
2022-01-31
#Flink
2022-01-28
#轻松一刻
2022-01-28
#动态
2022-01-22
#streamx
2022-01-22
#streamx
2022-01-20
#Flink
2022-01-19
#Flink
2022-01-19
#spark
2022-01-19
#spark
2022-01-19
#spark
2022-01-18
#hive
2022-01-18
#hive
2022-01-18
#hive
2022-01-18
#zookeeper
2022-01-18
#动态
2022-01-17
#Hadoop#Hadoop企业级优化
2022-01-16
#Hadoop#Hadoop企业级优化
2022-01-16
#Hadoop#Yarn
2022-01-16
#Hadoop#hadoop压缩
2022-01-16
#Hadoop#hadoop计数器应用#hadoop数据清洗
2022-01-15
#Hadoop#mapJoin#ReduceJoin
2022-01-14
#Hadoop#mapreduce#InputFormat
2022-01-14
#Hadoop#MapReduce#MapTask
2022-01-14
2022-01-14
#纪念册
2022-01-14
#Hadoop#Yarn#Yarn HA
2022-01-14
#Hadoop#HDFS#HDFS HA
2022-01-13
2022-01-13
2022-01-12
#Hadoop#mapreduce#shuffle
2022-01-12
#MapReduce#hadoop
2022-01-12
#Hadoop#HDFS#Namenode#DataNode#SecondaryNameNode
2022-01-12
#Hadoop
2022-01-11
#Linux
2022-01-08
#博客目录索引
2021-12-31
#动态