ES数据可靠性分析

ES作为全文检索兼存储系统,数据可靠性至关重要,本文讨论ES是如何实现数据可靠性的。ES底层基于Lucene,所以有必要先搞清楚一些相关的概念。refresh && flush && commitLucene中,有flush和commit的概念。所谓flush,就是定期将内存Buffer里面的数据刷新到Directory这样一个抽象的文件存储层,其实就是生成segment。需要注意的是,因为...

Flink的窗口介绍

Flink的Watermark细节介绍一文中提到了Watermark其实主要就是解决Event Time + Window中的数据完整性问题的,本文作为那篇文章的补充,再介绍一下Window这个概念。关于这部分,我觉得官方文档已经介绍的非常详细了,如果你是Flink使用者,强烈建议好好读几遍。我这里就主要概括性的介绍一下,作为前面文章的补充,同时解决前文遗留的一个问题。What & Why什...

Flink的Watermark细节介绍

在前面的流处理随谈一文中已经简单介绍了Watermark,本文主要再结合Flink具体分析一下,作为补充。理论如果看完之前的文章,已经完全理解了Watermark,那可以直接跳过这部分,看实战部分。如果还不太理解,我通过几个问题来阐述一下,帮助你理解。要注意的是下面的描述方式和实际实现未必完全一样(有些甚至是我的个人观点),但可以帮助你更好的理解。What?Watermark是什么?从不同的...

流处理随谈

说到流处理,很多后端工程师,特别是大数据工程师应该都不陌生,Storm、Spark以及如日中天的Flink应该或多或少的听过或者用过。本文从下面几个方面简单聊聊流处理:流处理发展史流处理中的一些重要思想和设计一些流处理框架的简单对比(Storm、Spark、Flink、Google Cloud Dataflow、Kafka Stream)注:本文说的Spark都指其流式部分,即Spark (...

Lucene系列(10)——相似度评分机制浅析(终篇)

注:本文基于Lucene 8.2.0 版本。本文是Lucene系列的终篇,在这篇文章中,我们会简单聊一下Lucene的相似度评分机制。TF-IDFBag-of-words模型先介绍一下NLP和IR领域里面非常简单且使用极其广泛的bag-fo-words model,即词袋模型。假设有这么一句话:"John likes to watch movies. Mary likes movies to...

Kafka性能测试

本文内容来自于Jay Kreps于2014年在LinkedIn发布的一篇文章,英文原文见Benchmarking Apache Kafka: 2 Million Writes Per Second (On Three Cheap Machines)。Jay Kreps是Kafka的早期作者之一,也是提供商业版本Kafka的Confluent公司联合创始人兼CEO。尽管该文发布于2014年4月...

Lucene系列(9)——QueryParser介绍

注:本文基于Lucene 8.2.0 版本。本文介绍一个比较“特殊”的查询API——QueryParser,它的特殊之处在于定义了一些查询语法,通过这些语法几乎可以实现前文介绍的所有Query API提供的功能,但它的存在并不是为了替换那些API,而是用在一些交互式场景中。本文不会再细述Lucene各个查询的含义及用法(比如什么是edit distance),所以如果你还不熟悉,请务必先阅读...
站点总览
  • 文章总数:272篇
  • 分类总数:15个
  • 评论总数:441条
  • 运行时间:6年266天
最近评论
多多非常好的文章,学习到了👍
窗外一叶我认为这本书里吹嘘的成分比较多,没有多少干货。移动通信网络(5G6G)和WiFi的界限会越来越...
aa懵逼
yhm流痞
马旭鹏路过
lukez比如ignore_older参数比clean_inactive长..其中逻辑请参考官方文档
QwQ按照教程配置IIS8.5主机环境Typecho伪静态问题终于解决了,救活了我的垃圾小站。
W_Z_C果然可以,看了半天文档竟然没有发现这个插件,也是醉了……
xiongjunkunhi, 你好, 能够详细解释一下导致filebeat重传的第二种情况吗?
Aidan博主您的博客写的非常好,相见恨晚ps: 不好意思,有点激动,前两条评论要不语义不通要不手误打错...