标签 Lucene 下的文章

Lucene系列（4）——Analyzer原理及代码分析

注：本文基于Lucene 8.2.0 版本。前面的文章中多次提到了分析器Analyzer，它就像一个数据加工厂，输入是原始的文本数据，输出是经过各种工序加工的term，然后这些terms以倒排索引的方式存储起来，形成最终用于搜索的Index。所以Analyzer也是我们控制数据能以哪些方式检索的重要点，本文就带你来了解一下Analyzer背后的奥秘。内置的Analyzer对比Lucene已经...

2019-09-17 大数据 2492次阅读

Lucene系列（3）——术语总结

注：本文基于Lucene 8.2.0 版本。前两篇文章分别从理论和代码角度概览了Lucene的功能，在开始各个模块的深入学习之前，我们先来总结一下之前提到的一些概念、术语，因为这些会贯穿后面几乎所有的文章，所以有必要理解清楚。其中有些概念是Lucene定义的，有些则是通用的IR领域术语。我画了一个索引整体的逻辑结构图，如下所示：我们根据图来介绍各个概念术语。索引（Index）对于初学全文检索...

2019-09-15 大数据 2036次阅读

Lucene系列（2）——代码实践

注：本文基于Lucene 8.2.0 版本。上篇文章《Lucene系列（1）——理论介绍》中我们说了搜索的流程分前台用户查询流程和后台索引构建流程。本文就借助Lucene（目前最新的8.2.0版本）来实现这两个流程。当然，我们说了Lucene并不负责数据采集和提取，所以为了简单起见，我从网上找了几首精美的英文短诗作为原始数据，你可以认为这就是爬虫从互联网上面爬取并且经过一些初步处理的数据（删...

2019-09-08 大数据 3700次阅读

Lucene系列（1）——理论介绍

注：本文基于Lucene 8.2.0 版本。说到搜索我们的第一反应应该就是百度、Google这样的搜索巨头，然后一些开发者可能还会想到Solr和ElasticSearch（后文简称ES）这样的开源的全文检索（full-text search）引擎。特别是ES，现在发展的可谓是如火如荼，前段时间还和阿里、腾讯达成战略合作，开始在中国市场发力。不论是百度搜索、Google搜索、Solr或者ES，...

2019-09-07 大数据 3120次阅读