聊聊基于Lucene的搜索引擎核心技术实践-fanzehua.com

聊聊基于Lucene的搜索引擎核心技术实践

分类：DotNet 发布时间：2017/6/15 10:58:44

搜索服务，已经成为了互联网最常用的基本服务: 从谷歌、百度搜索关键字，到电商平台搜索商品，再到微信查看附近的人。我们几乎每时每刻都在用到它。所以，搜索引擎技术一直为大家关注。作者本人曾负责一些大型的分布式搜索系统，本文从个人项目出发，讲讲基于 Lucene 的核心搜索引擎技术实践。希望让大家对搜索系统有进一步了解和启发。

之前，我曾分享过 Qunar 的机票搜索系统，一种基于航运业务的垂直搜索应用。今天聊到的 Lucene，是一种最常用的文本搜索引擎技术。

Lucene 介绍

Lucene 是一个高性能、可伸缩的文本搜索引擎库，诞生于 2000 年。它可以为应用程序添加索引和搜索能力，是一个 Java 语言编写的开源项目，也是著名的 Apache Jakarta 大家庭的一员。目前国内的阿里、美团，国外的 Netflix、MySpace、LinkedIn、Twitter、IBM 都有基于 Lucene 的搜索服务。Lucene 是非常经典的搜索引擎，基于 Lucene 上诞生了不少企业搜索平台，比如 Elastic Search、Solr、Index Tank。

Lucene 的特点：

Lucene 可以支持多种数据来源建立索引库：支持 PDF、Word、txt 等常用文档，也可以支持数据库，搜索索引的大致流程如图：

Lucene 作为搜索引擎，具备以下优势。

1）高性能

一小时可以索引 150GB 的数据
千万级增量索引能达到毫秒级

2）搜索高扩展性

可定制的排序模型
支持多种查询类型
通过特定的字段搜索、排序
通过特定的字段排序
近实时的索引和搜索
Faceting，Grouping，Highlighting，Suggestions 等

3）对 LBS 服务更友好的支持

目前 Lucene 最新版本已经到 6.X，它最重要的变化引用了一种新的重要数据结构，这种数据采用 K-D trees 存储方式，叫做 block K-D trees , 其针对于数值型和地理位置的新的数据结构。Lucene 低版本对 LBS、多维数值查询性能并不是很好。 6.X 在一些官方测评查询性能上升最少 30%，磁盘空间缩小 50%

KD-Tree 本质上是一种二叉树，该算法将散布在空间中的点通过超平面切分在不同的空间中，在搜索的过程中，如果某个空间中最近的点离目标点距离超过目标距离的话，整个空间将会被抛弃。对于所有点与目标点的距离都小于目标距离的空间，算法将进行一次子空间遍历。

Lucene 的存储结构

如上图，Lucene 基本存储单元从上往下，分别有：

Index(索引)：一般对应文件目录，包含了多个 Segment。可以理解为数据库中表。
Document(文档)：文档是我们建索引的基本单位，可以理解为数据库表一条行数据。
Segment(段)：不同的文档是保存在不同的段中的，一个段可以包含多篇文档。新添加的文档是单独保存在一个新生成的段中，随着段的合并，不同的文档合并到同一个段中。

从存储结构上看，在使用 Lucene 提供搜索服务时，业务场景需要考虑一些性能因素：

Lucene 有读写锁，能支持到类似 DB 的行锁粒度。
Lucene 的数据更新会写入索引文件，这会涉及磁盘的读写 IO。不过，Lucene 采用异步更新机制，同时优化了并发读写的问题。后面文中会提到。
索引更新：索引有全量更新、增量更新两种，增量更新就是局部更新，如果数据量在百万量级以上，数据变化不多的场景下，尽量用增量更新。另外，索引的 Update 实际是先 Delete 指定记录，然后再把指定记录对应的新值 Add 到索引。

基于 Lucene 实现的企业搜索平台

鉴于 Lucene 强大的特性和稳定性，有很多种基于 Lucene 封装的企业级搜索平台。其中最流行有两个：Apache Solr 和 Elastic search。

Apache Solr：它本身是 Apache Lucene 项目下的开源企业搜索平台，算是 Lucene 的直系。美团、阿里搜索服务是基于 Solr 来搭建的。
Elastic Search：简称 ES，由 Elastic 公司开发。Elastic 成立于 2012 年，总部在阿姆斯特丹，不久前 Google 宣布与 Elastic 达成战略合作协议，为谷歌云提供新的搜索以及相关分析服务。最近几年，ES 变得越来越普及，StackOverflow、Github、百度等都在使用。

企业搜索都有些什么不同，解决了什么需求呢？综合 Solr 和 ES，我觉得主要有两点：

1. 高可用的分布式集群管理

Solr 有 SolrCloud 来管理集群，它是基于 ZooKeeper 来控制节点的负载均衡：

Solr 控制节点的管理后台：

ES 集群管理是透明化，它基于 Cluster+Node+Shards(分片实现主从复制) 机制，自己实现节点管理。它的主从配置 Demo：

Master 的配置 (elasticsearch.yml)：

cluster.name: esapp
node.name: esnode0
node.master: true
node.data: true
network.host: 0.0.0.0

Slave 的配置：

cluster.name: esapp
node.name: esnode2
node.master: false
node.data: true
network.host: 0.0.0.0
discovery.zen.ping.unicast.hosts: ["esnode0"]

其中，network.host: 0.0.0.0 代表了没有绑定具体的 ip，这样其他机器可以通过 9200 这个默认端口通过 http 方式访问查看服务。而 slave 中的 discovery.zen.ping.unicast.hosts 指定了 master 的地址。

2. 健全的管理平台和搜索 API

Solr、ES 都提供了基于 HTTP 的搜索管理平台，Solr 自带管理后台, ES 有独立数据视图产品，如下图：

此外，Solr 和 ES 都提供方便的 REST API，以供各种客户端调用搜索服务，比如 Solr API:

搜索服务的高并发实例

因为 ES 在 12 年后才出现，早年 Solr 在企业级搜索市场算是一枝独秀。我在阿里的时候，早期 Taobao SKU 搜索服务还是基于 Solr 实现，那时的 Solr 对百万量级 SKU 做全量更新就已经是毫秒级别。

在美团，我也采用 Solr 集群搭建团购 SKU 搜索系统。大体的架构实现：

美团团购搜索主要有：商品列表按价格、购买量、人气等各种排序；移动端有大量 LBS 服务，它比较耗性能；一些热词的关键字搜索。最早，美团采用 MongoDB 提供的搜索，当时考虑：

MongoDB 存储是 JSON 数据，查询也方便。
它是基于平衡二叉树的内存索引，查询比较快，当时一台实例能撑到 3000 的 QPS（里面有大概 30% 是 LBS 查询）。不过 MongoDB 现在已经采用了新的搜索引擎叫 WiredTiger，一种文档级锁的存储引擎取代过去内存存储引擎 MMAP。
友好支持基于 GEO Hash 算法的 LBS 搜索。这点满足我们的移动端的 LBS 服务，它还可以一个 SKU 有多个坐标（分店）的查询。而 Solr 当时只能支持一个 SKU 一个坐标关联，遇到多个分店要拆解成多个 Docs 记录放在索引库中。

后来我们发现 MongoDB 就越来越不适合我们的业务场景，也踩过来很多坑。

当时我们 SKU 有几十万量级，每个月 30% 增量。因为销量、价格是时常变动的。当时策略隔五分钟来一次全量更新，中间增量更新是实时的。

虽然商户数量基数不大，对于 MongoDB 这样的 NoSQL 来说数据量并不高。但是短短几个月，APP 用户量却从 0 开始陡增到千万量级。每天数百万的日活下，可想而知，高并发下的读写压力就上来了。之前说过 MongoDB 基于内存引擎，它的存储结构最大的问题是它的锁是库锁级别！对，是库锁。可以想象我们深入了解以后内心的尴尬。

因为锁的巨大瓶颈，MongoDB 不遗余力想解决锁粒度的问题。后来几个大的版本迭代很快，但针对这个问题，也只优化到表锁粒度。对同一个表并发读写还是很容易被锁住。搜索服务没秒承载上千的 QPS 查询时，我们全量索引一来，MongoDB 的服务就几乎变得不可用。

于是我们尝试做基于 MongoDB 的读写分离，结果发现它在做分布式集群时，写库同步数据到读库的时候，读库的请求也在队列堵塞！从 MongoDB 的控制台 Mongostat 你会看到一个实时的统计：qr|qw。qr 表示当前排在队列中的读请求数，qw 表示写。当写请求来时，qr 就会持续飙高，直到 MongoDB 服务挂掉。当全量索引一来，哪怕没有其他写，qw 为 1，读队列也是堵塞的。

考虑锁瓶颈的问题，MongoDB 尝试过优化版，关注早期 2.X~3.0 都在致力解决这块问题。可能后来基于内存这种方式很难根本解决锁问题，也不好做分布式方案，最后才有后来用 WiredTiger 的文件引擎作为缺省引擎，算是彻底放弃了内存引擎。

基于周期成本太高，我决定采用 Solr 取代了 Mongo，通过 SolrCloud 技术，搭建了 Solr 分布式搜索集群。

SolrCloud 大致原理：基于 ZooKeeper 管理节点、索引分片、节点做主从。

Solr 单台实例只读的 QPS 不如 MongoDB，大概在 1500QPS。在 Solr4 版本 LBS 搜索在 700~800 QPS。不过关键是，在并发读写时候，Solr 不存在并发读写锁的问题。不会出现卡顿。而且它的主从同步是毫秒级别。这些优点是基于它的 NRT(NearRealTime) 技术来实现的：

NRT：Near Real Time , Lucene 为了支持实时搜索，在 2.9 版本就已经设计出来。想更多了解可以看看 http://wiki.apache.org/lucene-java/NearRealtimeSearch 它的原理记录在 LUCENE-1313 和 LUCENE-1516。介绍下代码实现的过程：

在 Index Writer 内部维护了一个 Ram Directory，在内存够用前，flush 和 merge 操作只是把数据更新到 Ram Directory，这个时候读写最新的索引都在内存中。只有 Index Writer 在 optimize 和 commit 操作会把 Ram Directory 上的数据完全同步到文件
当内存索引达到一个阀值时，程序主动执行 commit 操作时，内存索引中的数据异步写入硬盘。当数据已经全部写入硬盘之后，程序会对硬盘索引重读，形成新的 IndexReader，在新的硬盘 IndexReader 替换旧的硬盘 IndexReader 时，形成新的 IndexReader。后面再来的读请求交给新的 IndexReader 处理。
补充一下，在 1 过程中，变动的数据不是简单更新到 Old IndexReader 里面，它是暂存到一个新的 Reader.clone，在新的 IndexReader 生成前，读请求得到数据是 Old IndexReader+Reader.clone 它们 merge 的结果。

Lucene 的 index 组织方式为一个 index 目录下的多个 segment。新的 doc 会加入新的 segment 里，这些新的小 segment 每隔一段时间就合并起来。因为合并，总的 segment 数量保持的较小，总体 search 速度仍然很快。为了防止读写冲突，lucene 只创建新的 segment，并在任何 active 的 reader 不在使用后删除掉老的 segment。

另外，解释下上面的几个专业词语。

flush：把数据写入到操作系统的缓冲区，只要缓冲区不满，就不会有硬盘操作。
commit：把所有内存缓冲区的数据写入到硬盘，是完全的硬盘操作。
optimize：是对多个 segment 进行合并，这个过程涉及到老 segment 的重新读入和新 segment 的合并，这个过程是不定期。

同理 Elastic Search 也支持 NRT，实例也做到了读写分离。

从 MongoDB 迁移到 Solr 实践过程，在架构方面给我深刻的启发：

架构的设计和选型花时间调研是必要的，不要太盲目的应用新技术，尤其是一些方案不完备的开源框架。看似跑个 Demo 很好，实际的坑还得填。
新机会要掌握核心原理，掌握它合理的应用场景，MongoDB 也许只适合并发只读的搜索服务，比如很多公司用来搜索日志。

企业搜索高可用的优化

缓存调优

为了提高查询速度，Solr 和 ES 支持使用 Cache，还是以 Solr 为例：

Solr 支持 queryResultCache，documentCache，filtercache 主要缓存结果集。其中 filtercache、queryResultCache 运用得好对性能会有明显提升。

filtercache：它存储了 filter queries(“fq”参数) 得到的 document id 集合结果，你可以理解查询语句中的过滤条件。比如：下面业务场景一组搜索条件：

q=status:0 AND biz_type:1 AND class_id:1 AND group_id:3
q=status:0 AND biz_type:1 AND class_id:1 AND group_id:4
q=status:0 AND biz_type:1 AND class_id:1 AND group_id:5

可以看到 status、biz_type、class_id 是固定查询条件，唯一动态变化的是 group_id。

因此，我们把整个查询条件可分成两部分：一部分是以 status,biz_type,class_id 这几个条件组成的子查询条件，另外一部分是除它们外的子查询。在进程查询的时候，先将 status,biz_type,class_id 条件组成的条件作为 key，对应的结果作为 value 进行缓存，然后和另外一部分查询的结果进行求交运算。

这样，减少了查询过程的 IO 操作。

queryResultCache：比较好理解，就是整个查询结果缓存。这个在一些业务场景：比如排行榜、美团 APP 缺省列表首页，推荐列表页，这些高频固定查询，可以直接有 queryResultCache 返回结果。

这样，减少了查询次数和提高了响应时间。

一般搜索的 Cache 常基于 LRU 算法来调度。

分片 (Shard)

分片 (Shard) 可以减低大数据量的索引库操作粒度，和数据库分库分表思想一致。

Solr 的 DataBase 叫做 Core，ES 叫做 index，它们和 Shard 是一对多的关系。根据数据量和访问 QPS，合理设置分片数量，以期望到达搜索节点最大并发数。

Elastic Search VS Solr 对比

数据源

Solr 支持添加多种格式的索引，比如：HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等文件格式，还支持 DB 数据源。而 Elastic Search 仅支持 JSON 数据源。

高并发的实时搜索

基于 Solr 和 ES 都有成熟高可用架构设计。高并发的实时搜索两者都没有太大问题。但是 Elastic Search 读写并发性能更优于 Solr。

需要注意的是，搜索引擎不推荐像 DB 一样做类似 like 的通配符查询，这样会导致性大大降低。之前线上有一个 ES 搜索集群，一段时间 8 核 CPU 的 load 飚到了 10 以上，后来排查，原来是用到了 wildcard query(通配符查询)，出现了大量的慢查询，导致服务变得不可用。下面我具体介绍下。

当时的查询条件：

}},{"range":{"saleTime":{"from":"20170514000000000","to":"20170515000000000","include_lower":true,"include_upper":false}}},{"match":{"terminalNumber":{"query":"99996DEE5CB2","type":"boolean"}}}]}}}

监控每天 1min load、5 min load、15min load 统计情况：

非常明显看出来，当我们去掉通配符（改用普通全匹配查询）后，load 立马降下来。可见通配符查询都 CPU 性能影响很大。而且，如果首尾通配符中间输入的字符串越长。对应的 wildcard Query 执行更慢。性能越差。

这是什么原因呢？

在 Lucene 4.0 开始，为了加速通配符和正则表达式的匹配速度，将输入的字符串模式构建成一个 DFA (Deterministic Finite Automaton)，带有通配符的 pattern 构造出来的 DFA 可能会很复杂，开销很大。具体原理可以了解下 DFA。

wildcard query 应杜绝使用通配符打头，改变实现方式：使用更廉价的 term query 来实现同等的模糊搜索功能。或者获取一个大的结果集，在内存里面匹配。

易用性：

Solr 分布式基于 ZooKeeper，而 ES 自带分布式管理。两者在分布式管理和部署都比较成熟。

扩展性

Elastic 公司除了开发 ES 以外，还基于此，开发了 Kinbana(针对 Elasticsearch 的开源分析及可视化平台，用来搜索、查看 Elasticsearch 索引中的数据)、Logstash(开源的具有实时输入数据能力的数据收集引擎, 主要方便分布式系统收集汇总日志) 等一整套服务产品。

目前，Kinbana、Logstash 在很多公司被使用。基于 Elastic + LogStash + Kinbana 的 ELK 框架成为了一种流行的分布式日志收集监控技术方案。

Solr 自带了管理索引的 Web 控制台，只专注在企业级搜索引擎。

搜索引擎拓展应用

推荐系统使用搜索

推荐系统往往利用搜索进行复杂的离线查询和数据过滤。早期，美团团购 App 做了一个每日推荐功能，主要基于用户购买记录，个性化每天推送相关团购。当时这样做的：

首先，数据组在每天的前一天算好用户推荐规则，固定早上一段时间，批量执行推荐规则和用户匹配操作，大体过程：

整个操作上午串行开始推送。我们是并发请求多台搜索服务器，得到推荐数据，并行开始多个用户的消息推送。大概在 9：00~12：00 APP 用户会收到一条团购推送（如上面截图）。当时，推荐功能通过搜索进行个性化推荐，因为匹配的好，下单重复转化率是不错的。

数据分析、BI 调用搜索服务

我们提到数据分析、BI，总是联想到大数据，但并不是每家公司的数据都有海量规模。

实际情况，往往一定数据规模下，为了更低、更高效满足数据分析业务场景，往往用搜索系统承担一部分数据集合存储、处理的功能（这样的比例不低）。这样的好处是：

搜索系统查询太方便，对一些实时性，数据关联不大业务完全适用。
搜索系统也是一种稳定的数据源，它的数据持久化也是很稳定的。

比如之前我们数据部门就大量使用 ES 做一些负责的查询，帮忙他们做数据分析。

思考总结

搜索服务应用的领域太广泛，随着人工智能技术发展，个性化搜索服务越来越人性化。从近几年火热的内容、短视频个性推送，语音搜索。搜索技术还会有一个新的革新。

聊聊基于Lucene的搜索引擎核心技术实践

最新评论

我要发表评论

博客分类

博客档案

最新博客