标签 Lucene 下的文章

ES数据可靠性分析

ES作为全文检索兼存储系统，数据可靠性至关重要，本文讨论ES是如何实现数据可靠性的。ES底层基于Lucene，所以有必要先搞清楚一些相关的概念。refresh && flush && commitLucene中，有flush和commit的概念。所谓flush，就是定期将内存Buffer里面的数据刷新到Directory这样一个抽象的文件存储层，其实就是生成segment。需要注意的是，因为...

2020-09-16 大数据 3408次阅读

Lucene系列（10）——相似度评分机制浅析（终篇）

注：本文基于Lucene 8.2.0 版本。本文是Lucene系列的终篇，在这篇文章中，我们会简单聊一下Lucene的相似度评分机制。TF-IDFBag-of-words模型先介绍一下NLP和IR领域里面非常简单且使用极其广泛的bag-fo-words model，即词袋模型。假设有这么一句话："John likes to watch movies. Mary likes movies to...

2019-11-23 大数据 4230次阅读

Lucene系列（9）——QueryParser介绍

注：本文基于Lucene 8.2.0 版本。本文介绍一个比较“特殊”的查询API——QueryParser，它的特殊之处在于定义了一些查询语法，通过这些语法几乎可以实现前文介绍的所有Query API提供的功能，但它的存在并不是为了替换那些API，而是用在一些交互式场景中。本文不会再细述Lucene各个查询的含义及用法（比如什么是edit distance），所以如果你还不熟悉，请务必先阅读...

2019-11-02 大数据 3289次阅读

三个臭皮匠不如一个诸葛亮之DisjunctionMaxQuery查询介绍

本文介绍Lucene/ElasticSearch/Solr中的DisjunctionMaxQuery，这里我先给出Lucene 8.2.0版本JavaDoc对于该查询接口的描述：A query that generates the union of documents produced by its subqueries, and that scores each document with...

2019-10-27 大数据 2200次阅读

Lucene系列（8）——常用Query介绍

注：本文基于Lucene 8.2.0 版本。搜索是使用Lucene的根本目的，本文介绍Lucene提供的常用查询。下面的讲述中，会以之前《Lucene系列（2）——代码实践》文章中4首短诗的索引数据为例进行查询，你可以先阅读那篇文章构建索引。在Lucene中，Term是查询的基本单元(unit)，所有查询类的父类是org.apache.lucene.search.Query，本文会介绍下图中...

2019-10-20 大数据 5380次阅读

Lucene系列（7）——索引存储文件介绍

注：本文基于Lucene 8.2.0 版本。本文讨论Lucene底层索引数据存储。对于绝大数多人来说了解Lucene的上层概念足矣，无需关注底层的存储格式。所以本文虽然是讨论底层数据存储的，但也不会深入到具体的数据结构、压缩算法等。如果你有兴趣，可以查看对应版本的Lucene Java doc（8.2.0版本的链接已经附在文末）。另外，如果你对index、document、term、segm...

2019-10-19 大数据 3576次阅读

Lucene系列（6）——字段及其属性

注：本文基于Lucene 8.2.0 版本。回忆一下之前文章中创建字段（Field）的一些代码片段：// 片段1 Field pathField = new StringField("path", file.toString(),Field.Store.YES); // 片段2 FieldType fieldType = new FieldType(); fieldTy...

2019-09-25 大数据 3776次阅读

Lucene系列（5）——倒排索引、Token与词向量

注：本文基于Lucene 8.2.0 版本。上文我们对Analyzer的原理和代码进行了分析，主要偏重流程，这篇文章来分析Analyzer的输出细节——Token。对原始数据进行Analyze的终极目的是为了更好的搜索，所以还会讨论和搜索相关的倒排索引和词向量（Term Vector）。倒排索引（Inverted Index）和正向索引（Forward Index）我们用一个例子来看什么是倒...

2019-09-20 大数据 3046次阅读