应该在什么时候使用Hadoop

  • 时间:
  • 浏览:0
  • 来源:UU直播快三_UU直播快3平台

Hadoop实际上是有这样来越多这样来越多局限的。Hadoop允许你运行从前通用的计算,下面我用伪码进行说明:

朋友又问我,“你能使用Hadoop做简单的分组和统计吗?”他说当然不到,我就是告诉朋友我不到看这一 文件格式的例子。

我买了个新笔记本,它有16GB的内存和256GB的SSD。原因分析着我不到载入从前10GB的CSV文件到Pandas,它占用的内存实际上是很小的——其结果是以数字类型的字符串保存的,如“17284832583”作为4字节货8字节的整数,或存储“284572452.2435723”字符串作为8字节的双精度浮点数。

朋友所做的不到从前:F(k,v)和G(k,v),除开在后边步骤中的性能优化,一切都在固定的。

Map:你统计奇数书架上书的数量,我统计偶数书架上书的数量。(人这样来越多,统计太快)

我无须讨厌Hadoop,当我用其它工具不到很好处置数据时我会选泽Hadoop。另外,我推荐使用Scalding,无须使用Hive或Pig。Scalding支持使用Scala语言来编写Hadoop任务链,隐藏了其下的MapReduce。

原因分析着你的数据并都在像SQL表那样的形态学 化数据(比如纯文本、JSON对象、二进制对象),通常是直接写从前小的Python脚从前按行处置你的数据。把数据存储于文件,处置每从前文件,等等。原因分析着打上去是Hadoop就很麻烦。

Hadoop这样索引的概念,Hadoop不到全表扫描,Hadoop有深层泄露抽象——我花了这样来越多这样来越多时间来处置Java的内存错误、文件碎片以及集群竞争,哪些时间远大于我花在数据分析上的时间。

最坏的情況那个她 或许不到把所有的数据都同时载入到内存中。

你应该考虑使用Hadoop,而不用做这样来越多的选泽。

相比于SQL或Python脚本,Hadoop要慢的多。正确的使用索引后,SQL查询总爱非快——PostgreSQL简单的查找索引,检索确切的键值。而Hadoop是全表扫描的,它会把整个表进行重新排序。通过把数据表分片到多台计算机上后,重排序是放慢的。此人 面,处置二进制对象,Hadoop不到重复往返于命名节点,目的是查找和处置数据。这适合用Python脚从前实现。

SQL是从前很直接的查询语言,适合做业务分析,SQL的查询相当简单,就是还非常快——原因分析着你的数据库使用了正确的索引,二级查询或多级查询另当别论。

四、Hadoop远远比不上SQL或Python脚本

它会迫使你在Map中进行所有的计算,分组和统计,执行运算的依据像是穿上了紧身衣,我我虽然这样来越多这样来越多计算更适合选泽其它模型。穿上紧身衣的唯一原因分析是这原因分析着会扩展到非常大的数据集上,而大多数情況下,你的数据量原因分析着会小几块数量级。

使用Hadoop唯一的好处是可伸缩性非常好。原因分析着你有从前蕴藏了数TB数据的表,Hadoop有从前适合全表扫描的选项。原因分析着你这样从前大数据量的表,这样你应该像躲避瘟疫那样处置使用Hadoop。从前使用传统的依据来处置哪些的疑问会更轻松。

朋友递给我从前蕴藏10000MB数据的闪盘,看起来哪些数据无须样本数据,原因分析着这一 我不到理解的原因分析,当我的处置方案涉及到pandas.read_csv文件,而都在Hadoop,朋友很不愉快。

二、原因分析着我的数据是10GB呢

Scala风格的伪码:

六、Hadoop是从前极好的工具

Reduce:把朋友单独统计后的数据打上去同时。

这样人问我,“你在大数据和Hadoop方面有几块经验?”我告诉朋友,我总爱在使用Hadoop,就是我处置的数据集很少有大于几块TB的。

版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 https://blog.csdn.net/chszs/article/details/12114845

买个2TB或4TB的硬盘,在桌面PC或服务器上安装从前Postgre来处置它。

目标:计算图书馆书籍的数量

SQL风格的伪码:

对于Excel软件来说的“很大的数据”无须大数据,我我虽然还有其它极好的工具不到使用——我喜欢的Pandas。Pandas构建于Numpy库之上,不到以矢量格式的依据有效地把数百兆的数据载入到内存中。在我购买已3年的笔记本上,它不到用Numpy在一眨眼的功夫把1亿的浮点数乘在同时。Matlab和R也是极好的工具。

就是原因分析着“大数据”和“Hadoop”这从前热门词,即使这样来越多这样来越多人实际上不用到Hadoop,朋友就是用穿上“紧身衣”。

五、我的数据超过了5TB

对于几百兆的数据量,典型的做法是写从前简单的Python脚本按行读取文件行,并处置它,向从前文件写入。

一、原因分析着我的数据量是几百兆,Excel原因分析着这样加载它

在计算的表达方面,Hadoop弱于SQL,也弱于Python脚本。

三、原因分析着我的数据是1000GB、10000GB或1TB呢