在之前的《Hadoop系列三——YARN简介》中我们已经介绍了YARN的基本架构,但对于其调度策略只是简单提了一下,本文稍微深入一点,作为补充。YARN总共有三种调度策略:FIFO、Capacity Scheduler、Fair Scheduler。FIFO就是先进先出,最简单,实际中用的也比较少,这里就不再赘述了。Capacity Scheduler比Fair Scheduler出现的早,...
本文是对《Hadoop系列四——HBase简介》一文的补充,不过本文不会进行系统性介绍,只是针对一个个独立的点介绍,并且会不断更新,有点类似于FAQ吧。1. HBase的架构图简易版架构图:复杂版架构图:架构讲解见《Hadoop系列四——HBase简介》。2. HBase的数据模型在《Hadoop系列四——HBase简介》里面已经介绍过HBase的数据模型了,但这个的确非常重要,这里再做一些...
1. 概述HBase是Apache下的一个顶级项目,是Hadoop Database的简写。虽然也是数据库,但它不同于传统的关系型数据库,也不同于很多NoSQL,它的诞生就是为了解决海量数据的存储查询.官方对于HBase项目的说明如下:Use Apache HBase™ when you need random, realtime read/write access to your Big ...
ELKELK(Elasticsearch, Logstash, Kibana)是什么?网上很多,本文就不赘述了,这里推荐IBM的一篇文章:ELK+Filebeat 集中式日志解决方案详解,感觉图文并茂,讲的挺不错,而且里面也对Beat做了简单的说明。Logstash vs Filebeat这里也推荐一篇文章:Filebeat vs. Logstash — The Evolution of a...
YARN(Yet Another Resource Negotiator)是Hadoop 2中开发的一个资源管理框架,主要用于改善之前Hadoop版本中的一些问题。和Mesos类似,是一个比较通用的分布式集群资源管理框架,目前主要用在Hadoop生态圈中。不过YARN一般主要是配合一些其他计算框架使用(比如spark、MapReduce 2(Hadoop 2)、Tez等),用户一般无需关注Y...
在前文《Hadoop部署》中,我们已经提到过HDFS(Hadoop Distributed File System),它是Hadoop核心的一部分,是Hadoop默认使用的一套分布式文件系统。这里之所以说默认,是因为Hadoop项目其实有一层比较通用的文件系统抽象层,这使得它可以使用多种文件系统,比如本地文件系统、Amazon S3等。当然本文主要介绍HDFS。设计目标优势我们知道Hadoo...
Hadoop介绍Hadoop是Apache下面的一个开源的、可靠地、可扩展的分布式计算存储系统。Hadoop项目中主要包含四个部分:Hadoop Common:用于支持Hadoop其他模块的一些公共程序。Hadoop Distributed File System (HDFS):Hadoop使用的一个高吞吐量的分布式文件系统。Hadoop YARN:用于Hadoop任务调度和集群资源管理的框...
最近研究图数据库neo4j的时候发现了一个非常好玩的东西——利用图数据库分析非常火的美剧《权力的游戏》里面错综复杂的人物、领土等关系。写在前面本文不是科普图数据库neo4j的文章,所以不会涉及太多该数据库如何使用等细节(比如Node、Relationship、Property等概念,以及Cypher语法),但是也会简单涉及如何安装、配置等步骤,但是这不是重点,重点是用这个东西理出小说里面的人...
- « 前一页
- 1
- ...
- 3
- 4
- 5
- 6