Hadoop

人气：

网址： http://hadoop.apache.org/

收藏推荐给好友网站报错

Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统，简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据，适合那些有着超大数据集的应用程序。HDFS放宽了（relax）POSIX的要求这样可以流的形式访问文件系统中的数据。

Hadoop这个名字不是一个缩写，它是一个虚构的名字。该项目的创建者，Doug Cutting如此解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象样子的填充玩具命名的。我的命名标准就是简短，容易发音和拼写，没有太多的意义，并且不会被用于别处。小孩子是这方面的高手。”Hadoop是最受欢迎的在网络上对搜索关键字进行内容分类的工具，但它也可以解决许多要求极大伸缩性的问题。

Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop还是可伸缩的，能够处理 PB 级数据。此外，Hadoop依赖于社区服务器，因此它的成本比较低，任何人都可以使用。　

Hadoop带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写，比如 C++。Hadoop有许多元素构成。其最底部是HDFS，它存储Hadoop集群中所有存储节点上的文件。HDFS的上一层是 MapReduce引擎，该引擎由JobTrackers和TaskTrackers组成。

已有位网友发表了看法