朋友圈会影响一个人的格局和眼界。正所谓,跟着蜜蜂才会找到鲜花,和优秀的人同行,你也会发现更多美好。尝试做一些改变,去靠近那些真正热爱生活的人,去遇见更好的自己。——人民日报
大数据和hadoop的关系
上文说道 大数据 其实说白了就是主要解决海量数据的存储和海量数据的分析计算问题.
那么这个问题是如何解决的呢? 是有什么框架或者说什么工具来解决呢的?
答案就是 hadoop. 它是整个大数据体系中最主要的也是最核心的部分.
因为它解决了大数据的痛点: 海量数据的存储问题,分析计算问题.
所以,要讨论大数据,那么 hadoop就是它的起点…因为解决了海量数据的存储和计算问题呀!
在知道了什么是大数据, 为什么学习大数据需要从hadoop开始学之后,下面就要具体了解hadoop框架了.
在我看来学习一个框架最基本的步骤:
- 是什么?
- 能做什么?
- 怎么学?
那么 下面我们具体看看,hadoop到底是个什么东西? 它是怎么解决海量数据的存储和计算的问题的呢?
Hadoop是什么?
备注: hadoop官网地址: https://hadoop.apache.org/
首先从hadoop的官网入手,看看官网说的hadoop的是什么?
由官网总结得出hadoop是什么?
Hadoop是一个开源软件框架,用于在商用硬件集群上存储数据和运行应用程序。它为任何类型的数据提供海量存储,巨大的处理能力以及处理几乎无限的并发任务或作业的能力。
① Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
② 主要解决,海量数据的存储和海量数据的分析计算问题。
③ 广义上来说,Hadoop通常是指一个更广泛的概念-Hadoop生态
那么什么是hadoop生态呢?
hadoop生态是指由hadoop中心衍生的一系列解决大数据问题的一些大数据组件或者框架. 目的依然是针对大数据的海量数据存储和海量数据计算问题开展或者研发的针对不同问题的解决方式.
如图下图: 展示了大数据是以hadoop为中心的生态体系,所以hadoop是大数据的核心. 他解决了大数据的存储和计算问题.
Hadoop能做什么?
hadoop就是为了解决大数据的痛点而孕育出的,所以hadoop一定是解决了海量数据的存储和计算的问题.但是海量数据的存储和海量数据的计算问题仅仅是大数据问题的解决方案. 比如: hadoop就利用了分布式文件存储来存储大量的数据. 但是因为用到分布式的解决方案,所以,他还得解决分布式方案出现的问题.eg: 容错.
伴随者一个问题的解决和新问题出现再次解决,最终解决完所有问题得到的hadoop有了这些能力:
- 能够快速存储和处理大量任何类型的数据。随着数据量和品种的不断增加,特别是来自社交媒体和物联网(IoT),这是一个关键考虑因素。
- 计算能力。Hadoop 的分布式计算模型可以快速处理大数据。您使用的计算节点越多,您拥有的处理能力就越强。
- 容错。数据和应用程序处理可防止硬件故障。如果节点发生故障,作业将自动重定向到其他节点,以确保分布式计算不会失败。自动存储所有数据的多个副本。
- 灵活性。与传统的关系数据库不同,您不必在存储数据之前对其进行预处理。您可以根据需要存储尽可能多的数据,并决定以后如何使用它。这包括非结构化数据,如文本,图像和视频。
- 低成本。开源框架是免费的,使用商用硬件来存储大量数据。
- 可扩展性。只需添加节点,您就可以轻松扩展系统以处理更多数据。需要很少的管理。
既然hadoop能做这些,他能解决大数据问题. 那么难道就没有其他框架可以解决这些问题了吗? 又是什么原因使得hadoop奠定了如今大数据的核心地位呢? 要知道这个我们就必须了解hadoop有哪些优势.
Hadoop的优势是什么?
因为hadoop有这些优势,所以同时期,大多数公司更愿意使用hadoop,使得hadoop独领风骚.
1 | 1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。 |
也正是因为hadoop具有这些优势,使得大数据初期公司都是使用的hadoop来解决大数据问题的. 所以,后期的框架也是由hadoop为基础进行的衍生, 这就造成了hadoop在大数据技术方面不可动摇的核心地位,一直独领风骚到现在.
在了解到hadoop能做什么之后,又为啥学大数据必须用到hadoop之后,我们还需要知道,hadoop从研发到发行有哪些版本.最常用的是什么哪款的?
hadoop从研发到发行有哪些版本呢?
Hadoop三大发行版本
Hadoop三大发行版本:Apache、Cloudera、Hortonworks。
Apache版本最原始(最基础)的版本,对于入门学习最好。06年,我们学习的版本
Cloudera在大型互联网企业中用的较多。09年出来的,收费的
Hortonworks文档较好。11-12年,收费的
- Apache Hadoop
1 | 官网地址:http://hadoop.apache.org/releases.html |
- Cloudera Hadoop
1 | 官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html |
- Hortonworks Hadoop
1 | 官网地址:https://hortonworks.com/products/data-center/hdp/ |
其中最常用的就是Apache 开源的hadoop版本. 而且不收费,所以很多公司用的就是他,所以他成为了主流.
该了解的都了解清楚了,所以我们需要在正式的学习hadoop了, 因为hadoop框架有四个模块,每个模块又有不同的功能,所以我们需要了解hadoop的组成…避免文章很长,所以另立一篇文章.
- 本文作者: xubatian
- 本文链接: http://xubatian.cn/从Hadoop框架讨论大数据生态/
- 版权声明: 本博客所有文章除特别声明外均为原创,采用 CC BY 4.0 CN协议 许可协议。转载请注明出处:https://www.xubatian.cn/