ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」

编程小6 (36) 2023-04-25 12:12

Hi，大家好，我是编程小6，很荣幸遇见你，我把这些年在开发过程中遇到的问题或想法写出来，今天说一说ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」,希望能够帮助你!!!。

哈哈最近终于用ElasticSearch+Logstash把社区的文章高亮搜索功能实现啦(●'◡'●)！开森噢

不过，这一路上真的踩了好多坑啊/(ㄒoㄒ)/~~（虽然踩坑才是进步最快的办法哈哈。）

我们先来看一下实现效果（gif图好像有点模糊欸，不过看起来效果还凑合）。

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」_https://bianchenghao6.com/blog__第1张

从图中可以看到，我们通过关键词去搜索文章，文章中的标题和内容相应的关键词都会进行高亮显示。

那么，话不多说，我们直接看看这个效果究竟是怎么完成的吧(●'◡'●)。

前序准备

我们需要安装ElasticSearch（包括ik分词器插件） + Logstash + ElasticSearch-Header（这个主要是为了方便查看ES的数据）

（安装过程这里就不赘述啦，网上随便搜下就行喔，不过具体细节我还是会挑出来滴）

本文使用的ES和Logstash都是7.6.2版本的（主要配合SpringData-ES使用（最新版的SpringData-ES支持 ES 7.6.2））

引入相关依赖

后端项目使用的是 SpringBoot(2.3.0) ，需要导入一些核心的依赖

<dependencies>
    ······其他必须依赖
    <dependency>
        <groupId>org.springframework.data</groupId>
        <artifactId>spring-data-elasticsearch</artifactId>
    </dependency>
</dependencies>

文章实体类

这个文章实体类就是我们搜索出来的具体数据喔。

实体类的字段如下（搜索主要用到的是 title和detail和createdTime）

id 序号
title 标题
detail 内容
createdTime 创建时间
updatedTime 最近一次更新时间
……比如作者ID、浏览量、点赞量、逻辑删除字段等等

（其中，id、createdTime、isDeleted都在继承的BaseEntity里面）

这里先介绍下实体类代码中用到的SpringData-ES的注解：

@Document(indexName就是我们创建索引的名字，type已经不需要写了)

@Id 标记主键(放在id上面)

@Field(type就是这个字段的类型，analyzer和searchAnalyzer是分词规则，format是时间格式)

因为搜索关键词需要从title和detail进行搜索，所以type就写成text，这样可以进行分词。

关于analyzer和searchAnalyzer，我在官方文档中看到是这样解释的。

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」_https://bianchenghao6.com/blog__第2张

所以，我猜测这两个东西都是指向同一个东西，这里就姑且都写上叭（任性哈哈(●'◡'●)

这里重点需要说下字段updatedTime和createdTime

因为mysql数据同步到ES时，时间数据的格式是类似yyyy-MM-dd'T'HH:mm:ss.SSSZ。

所以，我们在@Field需要声明下时间格式

@Field(type = FieldType.Date, format = DateFormat.date_optional_time)

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」_https://bianchenghao6.com/blog__第3张

同时使用JsonFormat注解，可以使前端调用接口获取的时间数据变成我们想要的2020-06-10 08:08:08这样的格式，同时声明下时区即可。

@JsonFormat(shape=JsonFormat.Shape.STRING,pattern="yyyy-MM-dd HH:mm:ss",timezone="GMT+8")

实体类代码：

@Lombok的注解......
@Document(indexName = "article",type = "_doc")
public class Article extends BaseEntity {

    // 使用ik分词器，采用最大程度分词
    @Field(type = FieldType.Text, analyzer = "ik_max_word" ,searchAnalyzer="ik_max_word")
    private String title;

    @Field(type = FieldType.Text,analyzer = "ik_max_word" ,searchAnalyzer="ik_max_word")
    private String detail;

    // 作者id

    // 点赞量、浏览量等等

    /**
     * 修改时间
     */
    @JsonFormat(shape=JsonFormat.Shape.STRING,pattern="yyyy-MM-dd HH:mm:ss",timezone="GMT+8")
    @Field(type = FieldType.Date, format = DateFormat.date_optional_time)
    public Date updatedTime;


    // id、createdTime、isDeleted在继承的BaseEntity里面
}

创建索引及映射

先开启ElasticSearch

然后在测试类引入ElasticsearchRestTemplate，后续我们就使用这个类进行ES的高亮查询。

ElasticsearchRestTemplate是spring-data-elasticsearch项目中的一个类，和其他spring项目中的template类似。基于RestHighLevelClient，如果不手动配置RestHighLevelClient，ip+端口就默认为localhost:9200

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」_https://bianchenghao6.com/blog__第4张

@Autowired
ElasticsearchRestTemplate ESRestTemplate;

写一个测试方法，运行下面这两行代码即可。

// 根据我们Article中的注解，创建对应的index
// 根据我们Article中的注解，创建对应的mapping
ESRestTemplate.indexOps(Article.class);
// 如果是删除index的话
// ESRestTemplate.indexOps(Article.class).delete();即可

然后打开我们的ElasticSearch-Header，我们可以看到对应的索引及映射以及创建完毕啦~

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」_https://bianchenghao6.com/blog__第5张

同时，我们可以看一下具体的映射是否是我们注解中写的那样呢？

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」_https://bianchenghao6.com/blog__第6张

哈哈，发现完全一样。

OK，No problems (●'◡'●) ，Let's go next !

接下来就到我们很关键的使用Logstash同步啦！

使用 `Logstash` 同步Mysql数据

把索引和映射设置完毕后，我们接下来需要将Mysql的数据同步到ElasticSearch中

（呜呜说实话，就是因为Logstash同步这里出现了很多问题，导致我这块卡了很久，真的有点小难受qaq）

我们需要使用Logstash的插件logstash-input-jdbc完成数据同步。

（Tips：我在网上看到有说法：logstash7.x版本本身不带logstash-input-jdbc插件，需要手动安装，但是我好像直接运行就可以0.0…..）

首先我们打开Logstash的bin目录，然后写一个配置文件Mysql.conf（建议直接就写在bin目录下，这样方便启动）

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」_https://bianchenghao6.com/blog__第7张

（这个配置文件非常关键，它是用来同来同步数据的）

基本配置的意思我都用注解写出来了。

需要自己修改的地方我在注解开头写了*DIY

数据同步的规则就是我们自己规定的sql语句，我这里使用了updated_time作为同步的判断依据，只同步在最后一次同步的记录值 <updated_time< 现在时间这个范围的数据。

input {
  jdbc {
    # *DIY mysql连接驱动地址，这个随意，填写正确就行  
    jdbc_driver_library => "C:\Users\Masics\Desktop\logstash-7.6.2\lib\mysql-connector-java-8.0.19.jar"

    # *DIY 驱动类名
    jdbc_driver_class => "com.mysql.cj.jdbc.Driver"

    # *DIY 8.0以上版本：一定要把serverTimezone=UTC天加上
    jdbc_connection_string => "jdbc:mysql://localhost:3306/lemonc?useSSL=false&&serverTimezone=GMT%2B8&rewriteBatchedStatements=true&useUnicode=true"

    # *DIY 用户名和密码
    jdbc_user => "root"
    jdbc_password => "123456"

    # *DIY 设置监听间隔  各字段含义（由左至右）分、时、天、月、年，全部为*默认含义为每分钟都更新
    schedule => "* * * * *"

    # *DIY sql执行语句（记住查出来的字段大小写需要和映射里面的一致！！！）
    # 因为ES采用 UTC 时区，比北京时间早了8小时，所以ES读取数据时需要让最后更新时间 +8小时
    statement => "SELECT id ,title,detail,created_time as createdTime,updated_time as updatedTime
    FROM article where updated_time > date_add(:sql_last_value,INTERVAL 8 HOUR)  AND updated_time < NOW()"

    # 索引类型
    type => "_doc"

    # 字段名是否小写（如果为true的话，那么createdTime就会变成createdtime，就会报错）
    lowercase_column_names => false

    #是否记录最后一次运行内容
    record_last_run => true

    # 是否使用列元素
    use_column_value => true

    # 追踪的元素名，对应保存到es上面的字段名而不是数据库字段名
    tracking_column => "updatedTime"

    # 默认为number，如果为日期必须声明为timestamp
    tracking_column_type => "timestamp"

    # *DIY设置记录的路径
    last_run_metadata_path => "C:\Users\Masics\Desktop\logstash-7.6.2\config\last_metadata"

    # 每次运行是否清除上次的同步点
    clean_run => "false"
  }
}


output {
    elasticsearch {
        # *DIY ES的IP地址及端口
        hosts => ["localhost:9200"]
        # *DIY 索引名称
        index => "article"
        # 需要关联的数据库中有有一个id字段，对应类型中的id
        document_id => "%{id}"
        # 索引类型
        document_type => "_doc"
    }
    stdout {
        codec => rubydebug
    }
}

接下来我们就可以运行Logstash进行同步数据啦

在bin目录下打开命令行输入logstash -f yourconfig，就可以运行了。

但是呢，因为我是windows系统，我如果直接使用命令行就会出现下图这样的状况（很是迷惑Orz，我Java环境明明都没问题的说）

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」_https://bianchenghao6.com/blog__第8张

于是，我查了好久，一度还直接用我的Linux服务器进行测试- -

后来我发现了另外一种正确的打开方式~

使用git的Git Bash Here

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」_https://bianchenghao6.com/blog__第9张

然后输入下图的命令

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」_https://bianchenghao6.com/blog__第10张

然后我们可以看到下图中的sql语句，说明它正在进行数据同步

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」_https://bianchenghao6.com/blog__第11张

我们打开Header看看数据是否发生了变化呢？

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」_https://bianchenghao6.com/blog__第12张

当当当！！！我们发现数据已经变成20条啦（第一次同步是全量更新，后续就是增量更新啦(●'◡'●)）

为了验证后续都是增量更新，我就直接随便新写一篇文章，让大家看看效果OwO

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」_https://bianchenghao6.com/blog__第13张

因为我们刚刚配置文件设置了同步时间是每一分钟同步一次，所以我们稍等会嘿嘿

（One minute later······）

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」_https://bianchenghao6.com/blog__第14张

哈哈，我们发现sql语句中最后记录时间已经是我们第一次全量同步的时间喔（不是创建这篇文章的时间！）

又过了一分钟，我们发现再次同步的话，最后一次记录时间，就是上一次同步时间（也就是刚刚创建文章的时间），但是因为没有新数据，所以就没有进行数据同步）

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」_https://bianchenghao6.com/blog__第15张

至此，我们已经完成数据同步啦（包括全量和增量(●'◡'●)）

不过这里有个小小的遗憾喔，就是使用Logstash进行同步的话，删除是没办法同步的，所以如果涉及到删除操作，需要自己手动进行删除一下喔。

实现高亮搜索

完成数据同步，接下来就要实现本篇文章的核心功能——高亮搜索啦

其实，这个功能我一开始使用SpringDataES 3.2完成的，但是我写文章查阅资料的时候发现，官网居然升级到4.0了……于是呜呜发现好多API都换了，就自己啃文档用4.0版本实现了下。

Controller

这里解释下前端需要传递的参数：

curPage—— 当前页数，默认第一页
size—— 每页数据量，默认每页⑦条
type——查询的时间范围（我自己定义的是 -1表示全部，1表示一天内，7表示一周内，90表示三个月内）
keyword—— 搜索的关键字

/**
 * 搜索文章
 */
@GetMapping("/search")
public MyJsonResult searchArticles(
        @RequestParam(value = "curPage", defaultValue = "1") int curPage,
        @RequestParam(value = "size", defaultValue = "7") int size,
        @RequestParam(value = "type",defaultValue = "-1") int type,
        @RequestParam(value = "keyword") String keyword) {

    List<Article> articles = articleService.searchMulWithHighLight(keyword,type, curPage, size);

    return MyJsonResult.success(articles);
}

Service

我们在Service层进行业务的操作。

首先根据前端传递过来的参数，我们需要完成分页、时间范围、关键词高亮、关键词搜索

哈哈不过别担心！这些功能ElasticSearch全都有！！！

我这边就全部罗列在一个方法啦，感觉这样看起来会舒服点。如果需要封装下的话，也可以自己动手喔，基本注释写得很全啦

public List<Article> searchMulWithHighLight(String keyword, int type, int curPage, int pageSize) {

    // 高亮颜色设置（高亮其实就是用含有color的span标签把keyword包裹住）
    String preTags = "<span style=\"color:#F56C6C\">";
    String postTags = "</span>";


    // 时间范围
    // ES中对时间处理很方便
    // now就是指当前时间
    // now-1d/d 就是前一天的00:00:00
    String from;
    String to = "now";
    switch (type) {
        case 1:
            from = "now-1d/d";
            break;
        case 7:
            from = "now-7d/d";
            break;
        case 90:
            from = "now-90d/d";
            break;
        default:
            from = "2020-01-01";
            break;
    }

    // 构建查询条件（这些API都可以在官网找到喔，这里就不赘述了，链接：）
    // 1. 在title和detail查找相关的关键字
    // 2. 时间范围查找
    // 3. 分页查找
    // 4. 高亮，设置高亮字段title和detail
    NativeSearchQuery searchQuery = new NativeSearchQueryBuilder()
                .withQuery(QueryBuilders.boolQuery()// ES的bool查询
                           // must就相当于我们mysql的and
                        .must(QueryBuilders.multiMatchQuery(keyword, "title", "detail")) // 在title和detail里面查找关键词
                        .must(QueryBuilders.rangeQuery("createdTime").from(from).to(to))) // 根据创建时间，进行范围查询
                .withHighlightBuilder(new HighlightBuilder().field("title").field("detail").preTags(preTags).postTags(postTags)) // 高亮
                .withPageable(PageRequest.of(curPage - 1, pageSize))         // 设置分页参数，默认从0开始
                .build();


        // 执行搜索，获取结果
        // SearchHits是SpringDataES 4.0版本新增加的类，里面除了包含高亮信息，还包含了其他信息比如score等等
        // 4.0之前想要实现高亮需要自己手动写一个实体映射类，需要用到反射去实现，看起来4.0这方面方便了不少。
        SearchHits<Article> contents = ESRestTemplate.search(searchQuery, Article.class);
        List<SearchHit<Article>> articles = contents.getSearchHits();
        // 如果list的长度为0，直接return
        if (articles.size() == 0) {
            return new ArrayList<>();
        }


        // 完成真正的映射，拿到展示的文章数据。
        List<Article> result = articles.stream().map(article -> {
            // 获取高亮数据
            Map<String, List<String>> highlightFields = article.getHighlightFields();

            //如果集合不为空，说明包含高亮字段，则进行设置
            // 这里比较迷的是，高亮的结果集居然是一个List<String>，可能官方觉得没有必要全部变成一坨？
            // 不过正常想也是，我们不需要把整个文章的detail发给前端，只需要发一小部分就可以了，毕竟我们只需要部分高亮就行，这样也可以减少服务器的负担（嗯，说服自己了哈哈）
            // article.getContent()这个API就是返回查询到的article实体类
            if (!CollectionUtils.isEmpty(highlightFields.get("title"))) {
                article.getContent().setTitle(highlightFields.get("title").get(0));
            }

            if (!CollectionUtils.isEmpty(highlightFields.get("detail"))) {
                article.getContent().setDetail(highlightFields.get("detail").get(0));
            }

            // 业务逻辑操作
            // ······

            // 最后完成数据封装
            return articleDTO;
        }).collect(Collectors.toList());



        return result;
}

到这里我们就把后端接口实现啦！！！

接下来就到了令人激动的测试环节嘿嘿(●'◡'●)（应该不会翻车吧ヽ(*。>Д<)o゜）

接口测试

我们直接使用IDEA进行测试，输入keyword为java

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」_https://bianchenghao6.com/blog__第16张

结果，我们可以看到，在title和detail中java这个关键字已经被span包裹起来了。这样子，前端拿到数据就可以正常高亮展示啦！！

作者：柠檬味的咸鱼
链接：https://juejin.im/post/5edf13d16fb9a04797068bc7

已是最后文章

已是最新文章

发表回复取消回复

请先登录账户再评论哦

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」

前序准备

引入相关依赖

文章实体类

创建索引及映射

使用 `Logstash` 同步Mysql数据

实现高亮搜索

Controller

Service

接口测试

发表回复取消回复

相关推荐

VMware vSphere简介

科普：iOS开发如何做外部测试

扩频通信简介

Ubuntu下安装Chrome浏览器的两个方法

最新文章

VMware vSphere简介

科普：iOS开发如何做外部测试

扩频通信简介

Ubuntu下安装Chrome浏览器的两个方法

空指针异常NullPointerException（小结）

x的a次方怎么用计算机求x,x的a次方的导数图像-导数的求导法则-x的a次方求导公式用定义推导...

什么是条件编译

android AES CFB128 加密

springcloud eruka刷新时间配置实战

Java-System.currentTimeMillis() 存在性能问题

ElasticSearch+Logstash快速实现文章高亮搜索，及Mysql数据同步「建议收藏」

前序准备

引入相关依赖

文章实体类

创建索引及映射

使用 `Logstash` 同步Mysql数据

实现高亮搜索

Controller

Service

接口测试

发表回复 取消回复

相关推荐

VMware vSphere简介

科普：iOS开发如何做外部测试

扩频通信简介

Ubuntu下安装Chrome浏览器的两个方法

最新文章

VMware vSphere简介

科普：iOS开发如何做外部测试

扩频通信简介

Ubuntu下安装Chrome浏览器的两个方法

空指针异常NullPointerException（小结）

x的a次方怎么用计算机求x,x的a次方的导数图像-导数的求导法则-x的a次方求导公式用定义推导...

什么是条件编译

android AES CFB128 加密

springcloud eruka刷新时间配置实战

Java-System.currentTimeMillis() 存在性能问题

发表回复取消回复