和格局远大的人在一起,你的眼里就不会只有鸡毛蒜皮; 和自律向上的人在一起,你也会不由自主想要改变自己;和乐观豁达的人在一起,平凡的生活也能富有情趣。——人民日报
大数据概念
大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产.
说白了大数据就是主要解决海量数据的存储和海量数据的分析计算问题.
一般数据直接存放在mysql中,通过SQL语言进行分析. 但是数据量特别大的时候到达TB,PB级别的时候,数据再使用mysql等数据库工作就显得不是那么容易了. 这种海量的数据的分析,计算,存储已经是寻常数据库无法完成的了. 所以,大数据孕育而生.大数据所负责的范围是在PB和EB范围居多.
按顺序给出数据存储单位:
1 | 从小到大的存储单位: bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB |
大数据应用场景
大数据到底在现实生活中有哪些应用场景呢? 说白了就是大数据能干啥?
电商行业
不知道大家有没有这样的记忆,你在手机淘宝上搜索了一下衬衫这个商品,在你下一次打开的时候,首页上推荐的绝对有相关产品;你在头条上连着关注了几条疫情相关的信息,那么类似信息就会一直给你推荐。这就是大数据的应用之一。它可以根据你的的消费习惯为你提供相关产品与服务,而且很精细化。随着数据量的不断扩大,可以根据特定时间段特定区域等分析出区域消费特征,男女消费特征,消费习惯等等,这样在未来的市场布局中,就可以很有针对性地预测市场走向,调整销售策略、产品结构及产品备货量等,创造商业价值
金融行业
炒股的人都知道要看K线,那么K线怎么来的?都是交易过程的一些数据加工而来,可以说大数据在金融行业的应用非常广泛,行家关注大消息,菜鸟就只能看那些线,看不看得懂另说,这些线都是由大数据统计而来。在交易过程也大都是使用大数据算法进行的。买卖双方可以根据这些数据以及新闻,决定接下来的几秒内是选择购买还是出售。
生物技术
前两天百度布局苏州,打造生物计算发展新高地。计算机算,当然要用到数据。用李彦宏自己的话来讲,生物计算是高度融合的学科。生物和计算的融合,能够有效利用大量的生物数据,把药物发现的“大海捞针”变成“按图索骥”,为人类的生命健康谋福祉。
借助大数据和人工智能,医生可以检测出不同癌症病人的不同病变,找到个性化的用药,实现精准医疗,降低治疗成本。
大数据能在自身基因技术的多方面发挥作用,如基因测序和重组方面,大数据可以将复杂的工程简单化,带来更好的科技成果。
汽车行业
说起汽车,不得不提最近互联网巨头的造车潮。小米、华为、360都说要造车,那么哪家更强?华为、360、腾讯标榜的是不造整车,以技术赋能汽车行业。
汽车上的传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,这也是大数据。
互联网赋能汽车的软件技术,大多也要通过大数据来实现。如一些操作系统,一些智能云服务等。
360的周鸿祎明确声明,360 将不会独立造车:“做手机失败之后,我知道自己不能造车,硬件是好的身体,软件是灵魂,没有灵魂的肉体是行尸走肉。”
现在,人们越来越多地意识到大数据的价值,把大数据模型系统地应用到公共商业服务中,为政府、企业或个人提供服务;根据用户的查询浏览购买记录来推荐产品……可以说人们的生产生活正在被数字所定义,可以说无数据不存储,无数据不计算,无数据不真相,未来大数据所能发挥的作用更会超越我们的想象。
大数据特点
一、Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
二、Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
三、Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
四、Velocity:数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。
五、Veracity:数据的准确性和可信赖度,即数据的质量。
大数据发展前景
随着科技的进步,大数据从科学前沿逐渐深入到各行业。纵观国内外,大数据已经形成产业规模,并上升到国家战略层面,大数据技术和应用呈现纵深发展趋势。面向大数据的云计算技术、大数据计算框架等不断推出,新型大数据挖掘方法和算法大量出现,大数据新模式、新业态层出不穷,传统产业开始利用大数据实现转型升级。
趋势一:数据的资源化
趋势二:与云计算的深度结合
趋势三:科学理论的突破
趋势四:数据科学和数据联盟的成立
大数据作为一种重要的战略资产,已经不同程度地渗透到每个行业领域和部门,其深度应用不仅有助于企业经营活动,还有利于推动国民经济发展。它对于推动信息产业创新、大数据存储管理挑战、改变经济社会管理面貌等方面也意义重大。
大数据的技术发展与物联网、云计算、人工智能等新技术领域的联系将更加紧密,物联网的发展将极大提高数据的获取能力,云计算与人工智能将深刻地融入数据分析体系,融合创新将会不断地涌现和持续深入。
总体来说,大数据产业发展将迎来快速增长期,创新成为大数据发展主要基调,大数据与各大产业融合将加速,为做大做强数字经济、带动传统产业转型升级提供新动力。
了解大数据技术生态体系
图中涉及的技术名词解释如下:
1)Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySQL)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
2)Flume:Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;
3)Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统;
4)Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
5)Flink:Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
6)Oozie:Oozie是一个管理Hadoop作业(job)的工作流程调度管理系统。
7)Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
8)Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。
- 本文作者: xubatian
- 本文链接: http://xubatian.cn/大数据是什么/
- 版权声明: 本博客所有文章除特别声明外均为原创,采用 CC BY 4.0 CN协议 许可协议。转载请注明出处:https://www.xubatian.cn/