大数据架构的分析应用

发布时间：2018-10-29 16:13:17 所属栏目：大数据来源：51CTO技术栈

导读：副标题#e# 数据管理比以往更加复杂，到处都是大数据，包括每个人的想法以及不同的形式：广告、社交图谱、信息流、推荐、市

Flume 由sources, channels, 和sinks组成. Flume source 基本上从一个外部数据源来消费一个事件如 Apache Avro source,然后存到channel. channel是一个像文件系统那样的被动存储系统 ; 它在sink 消费事件前一直持有它. sink 消费事件，然后从channel中删除该事件，并分发给一个外部的目标。

Figure 1-4 描述了一个web server和HDFS间的日志流如 Apache,使用了Flume 流水线.

Figure 1-4. Flume architecture

通过 Flume, 可以将web服务器产生的不同日志文件移动到HDFS. 牢记我们工作在一个分布式的架构，可能包含有负载均衡器，HTTP servers,应用服务器，访问日志等等 . 我们是一不同的方式充分利用这些资源，使之能够被Flume流水线处理 . 详情参见 flume.apache.org.

Apache Sqoop

Swoop是一个从结构化数据库传说大量数据到HDFS. 使用它，既可以从一个外部的关系型数据库将数据导入到HDFS, Hive, 或者 HBase, 也可以Hadoop 集群导出到一个关系型数据库或者数据仓库.

Sqoop 支持主流的关系型数据库例如Oracle, MySQL, 和Postgres. 这个项目把你从写脚本传输数据中解脱出来;它提供了高性能数据传输的特性.因为关系型数据库中的数据增长迅速, 最好从开始就定义那些快速增长的表，然后使用Sqoop将数据周期性地传输到Hadoop，以便用于分析.

然后，结合Hadoop与其他数据，可以使用Sqoop 导出数据注入到BI 分析工具中. 详情参见 sqoop.apache.org.

处理语言

一旦数据到了HDFS,可以使用不同的处理语言从原始数据得到最好的结果.

Yarn: NextGen MapReduce

MapReduce 是第一代Hadoop集群中的主要处理框架; 它基本上将滑动数据分组(Map) 在一起，然后依赖特殊的聚合操作(Reduce)来聚会数据。在Hadoop 1.0中, 用户们可以使用不同的语言来写 MapReduce jobs—Java, Python,Pig, Hive等等. 无论用户选择了什么语言, 都依赖于相同的处理模型:MapReduce.

随着Hadoop 2.0的发布, 有了HDFS之上新的数据处理架构. 现在已经实现了YARN (Yet Another Resource Negotiator), MapReduce 已经成为了众多处理模型中的一个. 这意味着可以依赖特殊的使用场景来采用特殊的处理模型.

（编辑：衢州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/8

首页

尾页