Apache Hadoop 是一种用于大数据分布式计算的开源解决方案
大数据是一个营销术语,涵盖了从搜索引擎、通过积分卡跟踪的杂货店购买模式等来源挖掘数据的整个概念。在现代世界中,互联网有很多数据源,通常情况下,如果不进行处理,规模会使其无法使用,并且任何一台服务器都需要花费大量时间。进入 Apache Hadoop
更短的数据处理时间
通过利用 Hadoop 架构将处理任务分布在网络上的多台机器上,处理时间显着减少,并且可以以合理的数量确定答案的时间。 Apache Hadoop 分为两个不同的组件:存储组件和处理组件。用最简单的话说,Hapood用多台物理机制作了一台虚拟服务器。实际上,Hadoop 管理多台机器之间的通信,以使它们足够紧密地协同工作,看起来好像只有一台机器在进行计算。数据分布在多台机器上进行存储和处理任务由 Hadoop 架构分配和协调。这种类型的系统是将原始数据转换为大数据输入规模的有用信息的要求。考虑一下谷歌每秒从用户输入搜索请求时收到的数据量。作为数据的总块,您不知道从哪里开始,但 Hadoop 会自动将数据集缩减为更小、有组织的数据子集,并将这些可管理的子集分配给特定资源。然后将所有结果报告回来并组合成可用信息。
易于设置的服务器
虽然系统听起来很复杂,但大多数活动部件都被抽象化了。 设置 Hadoop 服务器相当简单,只需在满足系统要求的硬件上安装服务器组件即可。较难的部分是规划 Hadoop 服务器的计算机网络将用于分配存储和处理角色。这可能涉及设置局域网或通过 Internet 将多个网络连接在一起。您还可以利用现有的云服务并在 Microsoft Azure 和 Amazon EC2 等流行的云平台上购买 Hadoop 集群。这些更容易配置,因为您可以临时启动它们,然后在不再需要它们时停用集群。这些类型的集群非常适合测试,因为您只需为 Hadoop 集群处于活动状态的时间付费。
处理您的数据以获取您需要的信息
大数据是一种极其强大的资源,但除非能够正确分类并转化为信息,否则数据是无用的。目前,Hadoop 集群提供了一种极具成本效益的方法,用于将这些数据集合处理为信息。