2020年博客计划

已经许久没有更新博客了,2020年的两个月也已经快没了,相信大多数人和我一样,因为疫情的原因一直待在家里,为国家做贡献。曾经很多次想写一些东西,比如2019年总结、2020年计划、过去这一年中的一些感悟以及一些技术文章等等,要么是搁置了,要么是写到一半就没有继续写了。计划类的说实话,结婚后都没有仔细做过规划和总结(婚姻的锅咯?),每次都是内心定了一些大方向,后来随着时间也就忘记了,今年也是有几件重要的事情要做,但也没有定特别细的计划。可是毕竟博客还是有一些读者,不能辜负那些好朋友,以及萍水相逢关

- 阅读全文 -

Lucene系列(10)——相似度评分机制浅析(终篇)

注:本文基于Lucene 8.2.0 版本。本文是Lucene系列的终篇,在这篇文章中,我们会简单聊一下Lucene的相似度评分机制。TF-IDFBag-of-words模型先介绍一下NLP和IR领域里面非常简单且使用极其广泛的bag-fo-words model,即词袋模型。假设有这么一句话:"John likes to watch movies. Mary likes movies too."。那这句话用JSON格式的词袋模型表示的话就是:BoW = {"John":1,

- 阅读全文 -

Kafka性能测试

本文内容来自于Jay Kreps于2014年在LinkedIn发布的一篇文章,英文原文见Benchmarking Apache Kafka: 2 Million Writes Per Second (On Three Cheap Machines)。Jay Kreps是Kafka的早期作者之一,也是提供商业版本Kafka的Confluent公司联合创始人兼CEO。尽管该文发布于2014年4月份,使用的版本是0.8.1,但其结果在五年后的今天依然具有很大的参考价值。因为尽管Kafka如今已经发展到

- 阅读全文 -

Lucene系列(9)——QueryParser介绍

注:本文基于Lucene 8.2.0 版本。本文介绍一个比较“特殊”的查询API——QueryParser,它的特殊之处在于定义了一些查询语法,通过这些语法几乎可以实现前文介绍的所有Query API提供的功能,但它的存在并不是为了替换那些API,而是用在一些交互式场景中。本文不会再细述Lucene各个查询的含义及用法(比如什么是edit distance),所以如果你还不熟悉,请务必先阅读《Lucene系列(8)——常用Query介绍》一文。QueryParser概述其实在《Lucene系列(

- 阅读全文 -

三个臭皮匠不如一个诸葛亮之DisjunctionMaxQuery查询介绍

本文介绍Lucene/ElasticSearch/Solr中的DisjunctionMaxQuery,这里我先给出Lucene 8.2.0版本JavaDoc对于该查询接口的描述:A query that generates the union of documents produced by its subqueries, and that scores each document with the maximum score for that document as produced by a

- 阅读全文 -

Lucene系列(8)——常用Query介绍

注:本文基于Lucene 8.2.0 版本。搜索是使用Lucene的根本目的,本文介绍Lucene提供的常用查询。下面的讲述中,会以之前《Lucene系列(2)——代码实践》文章中4首短诗的索引数据为例进行查询,你可以先阅读那篇文章构建索引。在Lucene中,Term是查询的基本单元(unit),所有查询类的父类是org.apache.lucene.search.Query,本文会介绍下图中这些主要的Query子类:DisjunctionMaxQuery主要用于控制评分机制,SpanQuery代

- 阅读全文 -

Lucene系列(7)——索引存储文件介绍

注:本文基于Lucene 8.2.0 版本。本文讨论Lucene底层索引数据存储。对于绝大数多人来说了解Lucene的上层概念足矣,无需关注底层的存储格式。所以本文虽然是讨论底层数据存储的,但也不会深入到具体的数据结构、压缩算法等。如果你有兴趣,可以查看对应版本的Lucene Java doc(8.2.0版本的链接已经附在文末)。另外,如果你对index、document、term、segment、term vector、norm等上层概念还不清楚,建议先阅读该系列文章的前几篇。索引文件格式不论

- 阅读全文 -

ES中Term Aggregation的准确性问题讨论

本文讨论ElasticSearch Bucket Aggregations中的Term Aggregation结果准确性的问题,所有测试基于ES 7.1.0版本,DSL语句通过Kibana dev tool执行。问题演示我们先来看一个查询不准确的例子,该例子借鉴自官方文档(链接见文末),但为了操作方便,减小了数据规模。创建一个名为products,包含3个shard,0个副本的索引,及一个keyword类型的 name 字段。通过以下命令创建该索引,并写入一些测试数据:# 创建索引 PUT pr

- 阅读全文 -

微信公众号

随机文章

最近回复

  • NYC: 客气了
  • Aidan: 博主您的博客写的非常好,相见恨晚 ps: 不好意思,有点激...
  • Aidan: 博客您的博客写的非常好
  • Aidan: 非常好的网站
  • repostone: 非技术的路过。
  • NYC: 确认一下你配置的调度策略是Fair,而不是Capacity,不要...
  • NYC: 这个没问题,我文章里面说的是策略,配置的时候是通过CDH配置的。...
  • 一方: 但是我的action队列抢占了资源,导致action不能并行,难...
  • NYC: 是的,不管是哪个队列,队列内部只要有资源够action/lanu...
  • 一方: 老铁,我想问下,你分配好队列,然后固定了lancher队列的am...

分类

标签