分类大数据下的文章

首页 » 分类大数据下的文章

Hive架构介绍

《Hive安装使用》介绍了一下Hive的安装和数据模型，本文主要介绍Hive的架构及查询流程。架构总览先来一张官网的架构图：这幅图清楚的展示了Hive和Hadoop的关系，并且展示了Hive一些重要的组件：UI：主要是Hive的各种客户端。这是用户使用Hive的窗口，包括我们之前使用的HiveCli、Beeline等CLI，以及一些Web GUI接口。用户通过UI来提交自己的操作请求。Dri...

2018-09-15 大数据 4000次阅读

Hive安装使用

Hive最初由Facebook开发，最后贡献给Apache基金会，最后成为了Apache的顶级项目。Hadoop的出现虽然解决了海量数据的存储，并且提供了MR计算框架。但MR的使用门槛还是比较高，所以Facebook便开发了Hive，底层依旧使用HDFS存储数据，但操作数据却不用自己写MR程序，而是使用类似SQL的语法操作数据（在Hive里面称为HQL），后台自动转换为MapReduce，极...

2018-09-12 大数据 3532次阅读

Oozie任务死锁解决方案

Oozie是Apache下面的一个用于流程调度（workflow scheduler）的系统，主要用于管理Hadoop生态圈中的各种任务，目前支持丰富的任务类型：Java MR、Streaming MR、Pig、Hive、Sqoop、Spark、Shell等。如果想详细了解Ooize强大的调度功能，可参考其官方(http://oozie.apache.org/)文档。本文主要讨论使用Oozi...

2018-05-20 大数据 5622次阅读

YARN调度策略

在之前的《Hadoop系列三——YARN简介》中我们已经介绍了YARN的基本架构，但对于其调度策略只是简单提了一下，本文稍微深入一点，作为补充。YARN总共有三种调度策略：FIFO、Capacity Scheduler、Fair Scheduler。FIFO就是先进先出，最简单，实际中用的也比较少，这里就不再赘述了。Capacity Scheduler比Fair Scheduler出现的早，...

2018-05-05 大数据 3515次阅读

HBase架构介绍

本文是对《Hadoop系列四——HBase简介》一文的补充，不过本文不会进行系统性介绍，只是针对一个个独立的点介绍，并且会不断更新，有点类似于FAQ吧。1. HBase的架构图简易版架构图：复杂版架构图：架构讲解见《Hadoop系列四——HBase简介》。2. HBase的数据模型在《Hadoop系列四——HBase简介》里面已经介绍过HBase的数据模型了，但这个的确非常重要，这里再做一些...

2018-04-22 大数据 2543次阅读

HBase安装使用

1. 概述HBase是Apache下的一个顶级项目，是Hadoop Database的简写。虽然也是数据库，但它不同于传统的关系型数据库，也不同于很多NoSQL，它的诞生就是为了解决海量数据的存储查询.官方对于HBase项目的说明如下：Use Apache HBase™ when you need random, realtime read/write access to your Big ...

2018-04-15 大数据 2320次阅读

ELK+Filebeat小试

ELKELK(Elasticsearch, Logstash, Kibana)是什么？网上很多，本文就不赘述了，这里推荐IBM的一篇文章：ELK+Filebeat 集中式日志解决方案详解，感觉图文并茂，讲的挺不错，而且里面也对Beat做了简单的说明。Logstash vs Filebeat这里也推荐一篇文章：Filebeat vs. Logstash — The Evolution of a...

2018-02-12 大数据 3106次阅读

YARN简介

YARN(Yet Another Resource Negotiator)是Hadoop 2中开发的一个资源管理框架，主要用于改善之前Hadoop版本中的一些问题。和Mesos类似，是一个比较通用的分布式集群资源管理框架，目前主要用在Hadoop生态圈中。不过YARN一般主要是配合一些其他计算框架使用（比如spark、MapReduce 2(Hadoop 2)、Tez等），用户一般无需关注Y...

2018-02-02 大数据 2078次阅读