大数据架构的分析应用

发布时间：2018-10-29 16:13:17 所属栏目：大数据来源：51CTO技术栈

导读：副标题#e# 数据管理比以往更加复杂，到处都是大数据，包括每个人的想法以及不同的形式：广告、社交图谱、信息流、推荐、市

Hortonworks 和Cloudera 是这样领域的主角。尽管它们之间有些区别，但是从大数据包的角度上看，它们是一样的，你不需要那些专属的插件。我们的目标不是描述每个发布版的所有组件，二是聚焦在每个提供者在标准生态系统中所增加的部分。同时，描述了在每种情况下，该架构所依赖的其他组件。

Cloudera CDH

Cloudier在Hadoop基础组件上增加了一个内部机构组件的集合; 这些组件被设计成给你更好的集群管理和搜素体验。部分组件列表如下：

Impala: 一个实时，并行化，基于SQL的引擎来搜索 HDFS

(Hadoop Distributed File System)和 HBase中的数据. Impala被认为是Hadoop 发布版提供商市场中最快的查询引擎，是UC Bekeley Spark 的直接竞争者。

Cloudera Manager: 这是Cloudier的控制台，用来管理和部署Hadoop集群内的Hadoop组件.

Hue: 一个用于执行用户交互数据操作和执行脚本的控制台，可以操作集群内不同的Hadoop组件.

Figure 1-1 解释了Cloudera’s Hadoop分发包有如下组件分类:

橙色部分是Hadoop核心栈.

粉色部分是 Hadoop 生态系统项目

蓝色部分是 Cloudera的特使组件.

Figure 1-1. Cloudera Hadoop发布版

Hortnworks HDP

Hortnworks 是一个百分之百的开源而且使用了稳定的组件包，而不是1Hadoop 项目中最新的分发版本。它增加了一个组件管理控制台来与Cloudera Manager对比。Figure 1-2 展示了Hortonworks 发布版与Figure 1-1 相应的分类：绿色部分是Hortonworks的特殊组件.

Figure 1-2. Hortonworks Hadoop distribution

如前所述，当我们构建架构的时候，这两个发布版(Hortonworks 和Cloudera) 是一样的。尽管如此, 如果考虑到每个发布版的成熟度，应当选择; Cloudera Manager比Ambari更完整和稳定 .进一步，考虑实时与大数据集交互，更应该因为它的性能卓越而使用Cloudera.

Hadoop Distributed File System (HDFS)

你可能疑虑摄取到Hadoop集群中的数据存储到哪里。一般都在一个专有的系统上，叫做HDFS。HDFS的核心特性:

分布式

高吞吐量访问

高可用

容错

参数调整

安全

负载均衡

HDFS 是Hadoop集群中数据存储的头等公民。数据在集群数据节点中自动复制。

Figure 1-3 展示了HDFS中的数据如何在一个集群的五个节点中复制的。

Figure 1-3. HDFS data replication

可以从 hadoop.apache.org获得更多的有关HDFS的信息。

Data Acquisition

数据的获取或者摄取开始于不同的数据源，可能是大的日志文件，流数据， ETL处理过的输出，在线的非结构化数据，或者离线的结构化数据。

Apache Flume

（编辑：衢州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/8

首页

尾页