数仓建模设计理论及概念

2022-03-23

数据仓库概述

数据仓库概念

数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据，借助数据仓库的分析能力，企业可从数据中获得宝贵的信息进而改进决策。同时，随着时间的推移，数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。

展开全文 >>

pgSQL常用SQL函数

2022-03-16

常用日期函数记录.

展开全文 >>

Spark原理与实现: SparkStreaming 概述

2022-03-10

SparkStreaming 其实就是微批次处理架构
Spark Streaming他是spark当中处理流式数据的一个模块,Spark SQL是spark当中用来处理结构化数据的一个模块,假如说kafka过来的数据,不是在HDFS或者Hive那张表里面,那这时候你过来一点数据我就计算一点数据,这就叫流式处理,流式化处理我们有Storm(https://storm.apache.org/) 但是他已经过时了,Flink太先进.
RDD有创建,转换,输出;
Spark SQL当中有DataFrame ,DataSet的创建,转换;
Spark SQL的转换简单,就是我们写的SQL,因为因为他还是SQL风格;

展开全文 >>

Spark原理与实现: Spark SQL编程之Spark SQL数据的加载与保存

2022-03-10

通用加载/保存方法

注意:sparkSQL可以读Json文件,但是一整行必须是一个完整的文件,如下图

展开全文 >>

大数据公羊说之Flink每日一题收录

2022-03-10

1 2	文章收录的是公众号: 大数据公羊说的面试题总结. 注意: 黑猫旁边就是目录~

本文目录概览

展开全文 >>

hive常用函数之分区表和分桶表

2022-02-28

分区表

展开全文 >>

hive常用函数之排序

2022-02-28

hive 里面其实我们可以设置reduce的个数. 类似于在mapreduce里面,最后封装一个Driver一样. 可以最后写我们需要运行多少个reducer. set mapreduce.job.reduces=3; 设置reducer个数为3. 但是在orderBy 里面,就算你最后设置了属性也不会生效.