av一区二区三区天堂,国产精品宾馆国内精品酒店

elasticsearch 8

之前使用的一個(gè)老系統(tǒng)使用了elasticsearch7.x版本，之后又反應(yīng)es版本存在各種漏洞

無(wú)奈只能做版本升級(jí)來(lái)解決問(wèn)題，計(jì)劃是將版本升級(jí)到8.x，在網(wǎng)上了解了下兩個(gè)版本的區(qū)別，主要包括以下變化：

Rest API相比較7.x而言做了比較大的改動(dòng)（比如徹底刪除_type），為了降低用戶的升級(jí)成本，8.x會(huì)暫時(shí)的兼容7.x的請(qǐng)求。
默認(rèn)開(kāi)啟安全配置（三層安全），并極大簡(jiǎn)化了開(kāi)啟安全需要的工作量，可以這么說(shuō)：7.x開(kāi)啟安全需要10步復(fù)雜的步驟比如CA、證書(shū)簽發(fā)、yml添加多個(gè)配置等等，8.x只需要一步即可）。
存儲(chǔ)空間優(yōu)化：更新了倒排索引，對(duì)倒排文件使用新的編碼集，對(duì)于keyword、match_only_text、text類(lèi)型字段有效，有3.5%的空間優(yōu)化提升，對(duì)于新建索引和segment自動(dòng)生效。
優(yōu)化geo_point，geo_shape類(lèi)型的索引（寫(xiě)入）效率：15%的提升。
新特性：支持上傳pyTorch模型，在ingest的時(shí)候使用。比如在寫(xiě)入電影評(píng)論的時(shí)候，如果我們想要知道這個(gè)評(píng)論的感情正負(fù)得分，可以使用對(duì)應(yīng)的AI感情模型對(duì)評(píng)論進(jìn)行運(yùn)算，將結(jié)果一并保存在ES中。
技術(shù)預(yù)覽版KNN API發(fā)布，（K鄰近算法），跟推薦系統(tǒng)、自然語(yǔ)言排名相關(guān)。之前的KNN是精確搜索，在大數(shù)據(jù)集合的情況會(huì)比較慢，新的KNN提供近似KNN搜索，以提高速度。
對(duì)ES內(nèi)置索引的保護(hù)加強(qiáng)了：elastic用戶默認(rèn)只能讀，如果需要寫(xiě)權(quán)限的時(shí)候，需有allow_restrict_access權(quán)限。

那么在基于spring-boot的開(kāi)發(fā)時(shí)，我們大概需要做些對(duì)應(yīng)的調(diào)整了，要包括以下幾點(diǎn)：

spring-data-elasticsearch版本升級(jí)
客戶端依賴(lài)由elasticsearch-rest-high-level-client調(diào)整為elasticsearch-java
JDK版本升級(jí)到17

借著這個(gè)機(jī)會(huì)，重溫下es相關(guān)的知識(shí)……

創(chuàng)建索引

基于Elasticsearch Rest API

PUT localhost:9200/index_novel

{
  "settings": {
    "index": {
      "number_of_shards": 1,
      "number_of_replicas": 1
    }
  },
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "fields": {
          "keyword": { "ignore_above": 256, "type": "keyword" }
        }
      },
      "author": { "type": "keyword" },
      "category": { "type": "keyword"  },
      "type": { "type": "keyword"  },
      "description": { "analyzer": "ik_max_word", "type": "text" },
      "content": { "analyzer": "ik_max_word", "type": "text" },
      "coverUrl": { "type": "text" },
      "insertTime": { "format": "date_time", "type": "date" },
      "updateTime": { "format": "date_time", "type": "date" },
      "status": { "type": "keyword" }
    }
  }
}

基于SpringBoot創(chuàng)建

定義Novel實(shí)體

@Data
@Document(indexName = "index_novel")
public class Novel {

}

定義Repository

public interface NovelDao extends ElasticsearchDao< Novel, String > {  }

啟用Elasticsearch Repositories支持

@EnableElasticsearchRepositories

4主要實(shí)現(xiàn)在SimpleElasticsearchRepository中：

public SimpleElasticsearchRepository(ElasticsearchEntityInformation< T, ID > metadata,
        ElasticsearchOperations operations) {
    this.operations = operations;

    Assert.notNull(metadata, "ElasticsearchEntityInformation must not be null!");

    this.entityInformation = metadata;
    this.entityClass = this.entityInformation.getJavaType();
    this.indexOperations = operations.indexOps(this.entityClass);

    if (shouldCreateIndexAndMapping() && !indexOperations.exists()) {
        indexOperations.createWithMapping();
    }
}

字段類(lèi)型

Elasticsearch 支持多種字段類(lèi)型，每種類(lèi)型都有其獨(dú)特的作用和功能。其中常見(jiàn)的字段類(lèi)型包括：

Text：用于存儲(chǔ)文本內(nèi)容，支持全文搜索、模糊搜索、正則表達(dá)式搜索等功能。
Keyword：用于存儲(chǔ)關(guān)鍵詞，支持精確匹配和聚合操作。
Date：用于存儲(chǔ)日期時(shí)間類(lèi)型的數(shù)據(jù)，支持日期范圍查詢(xún)、日期格式化等功能。
Numeric：用于存儲(chǔ)數(shù)值類(lèi)型的數(shù)據(jù)，支持?jǐn)?shù)值范圍查詢(xún)、聚合操作等功能。
Boolean：用于存儲(chǔ)布爾類(lèi)型的數(shù)據(jù)，支持精確匹配和聚合操作。
Geo-point：用于存儲(chǔ)地理位置信息，支持距離計(jì)算、地理位置聚合等功能。
Object：用于存儲(chǔ)復(fù)雜的結(jié)構(gòu)化數(shù)據(jù)，支持嵌套查詢(xún)、嵌套聚合等功能。

text

Es中的text類(lèi)型是一種用于處理長(zhǎng)文本的數(shù)據(jù)類(lèi)型，適合于全文搜索和分析。當(dāng)將文本字段映射為text類(lèi)型時(shí)，文本會(huì)被分析器分詞處理成一個(gè)個(gè)單詞，然后被存儲(chǔ)在倒排索引中，以便后續(xù)進(jìn)行全文搜索。text類(lèi)型支持多種分析器和過(guò)濾器，可以對(duì)不同的文本進(jìn)行不同的分詞處理，以達(dá)到最佳的搜索效果。此外， text類(lèi)型還支持詞項(xiàng)位置信息和偏移量信息的存儲(chǔ)，以便進(jìn)行精確的搜索和高亮顯示。

keyword

ES把keyword類(lèi)型的值作為一整體存在倒排索引中，不進(jìn)行分詞。 keyword適合存結(jié)構(gòu)化數(shù)據(jù)，如性別、手機(jī)號(hào)、數(shù)據(jù)狀態(tài)、標(biāo)簽HttpCode(404,200,500)等。字段常用來(lái)精確查詢(xún)、過(guò)濾、排序、聚合時(shí)，應(yīng)設(shè)為keyword，而不是數(shù)值型。如果某個(gè)字段你經(jīng)常用來(lái)做range查詢(xún), 你還是設(shè)置為數(shù)值型(integer,long)，ES對(duì)數(shù)字的range有優(yōu)化。還可以把字段設(shè)為multi-field，這樣又有keyword類(lèi)型又有數(shù)值類(lèi)型，方便多種方式的使用。最長(zhǎng)支持32766個(gè)UTF-8類(lèi)型的字符，但放入倒排索引時(shí)，只截取前一段字符串，長(zhǎng)度由ignore_above參數(shù)決定，默認(rèn)"ignore_above" : 256。

Auto

在spring中，支持一種auto的數(shù)據(jù)類(lèi)型，通過(guò)在字段上添加注解實(shí)現(xiàn)@Field(type = FieldType.Auto)，Auto申明的類(lèi)型除了生成一個(gè)text類(lèi)型字段外，還會(huì)多一個(gè).keyword的keyword類(lèi)型的字段。

@Field(type = FieldType.Auto)
    private String title;

上面對(duì)應(yīng)的mapping：

{
  "title": {
    "type": "text",
    "fields": {
      "keyword": {
        "ignore_above": 256,
        "type": "keyword"
      }
    }
  }
}

fields可以讓同一文本有多種不同的索引方式，比如上面text類(lèi)型的字段title，可以使用text類(lèi)型做全文檢索，使用keyword類(lèi)型做聚合和排序。

通過(guò)這種方式，可以實(shí)現(xiàn)一個(gè)字段運(yùn)用于不同的場(chǎng)景。要知道字段類(lèi)型的使用場(chǎng)景是受限的。在mapping中通過(guò)添加fields的擴(kuò)展字段，讓一個(gè)字段擁有多個(gè)子字段類(lèi)型，使得一個(gè)字段能夠被多個(gè)不同的索引方式進(jìn)行索引。

查詢(xún)

以下是 Elasticsearch 中所有的查詢(xún)類(lèi)型：

Match Query：用于匹配文本類(lèi)型字段中的文本。
Multi-match Query：用于在多個(gè)字段中匹配文本類(lèi)型字段中的文本。
Term Query：用于匹配非文本類(lèi)型字段（如數(shù)字、布爾值等）中的確切值。
Terms Query：用于匹配非文本類(lèi)型字段（如數(shù)字、布爾值等）中的多個(gè)確切值。
Range Query：用于匹配數(shù)字、日期等范圍內(nèi)的值。
Exists Query：用于匹配指定字段是否存在值。
Prefix Query：用于匹配以指定前綴開(kāi)頭的文本。
Wildcard Query：用于匹配包含通配符的文本。
Regexp Query：用于使用正則表達(dá)式匹配文本。
Fuzzy Query：用于匹配類(lèi)似但不完全匹配的文本。
Type Query：用于匹配指定類(lèi)型的文檔。
Ids Query：用于根據(jù)指定的文檔 ID 匹配文檔。
Bool Query：用于組合多個(gè)查詢(xún)條件，支持AND、OR、NOT等邏輯操作。
Boosting Query：用于根據(jù)指定的查詢(xún)條件調(diào)整文檔的權(quán)重。
Constant Score Query：用于為所有匹配的文檔分配相同的分?jǐn)?shù)。
Function Score Query：用于根據(jù)指定的函數(shù)為匹配的文檔分配自定義分?jǐn)?shù)。
Dis Max Query：用于在多個(gè)查詢(xún)條件中選擇最佳匹配的文檔。
More Like This Query：用于根據(jù)文檔內(nèi)容查找相似的文檔。
Nested Query：用于在嵌套對(duì)象中查詢(xún)。
Geo Distance Query：用于查詢(xún)地理坐標(biāo)范圍內(nèi)的地點(diǎn)。
Span Term Query：用于匹配指定的單個(gè)術(shù)語(yǔ)。
Span Multi Term Query：用于匹配指定的多個(gè)術(shù)語(yǔ)。
Span First Query：用于匹配文檔中的首個(gè)匹配項(xiàng)。
Span Near Query：用于匹配多個(gè)術(shù)語(yǔ)之間的近似距離。
Span Or Query：用于匹配任何指定的術(shù)語(yǔ)。
Span Not Query：用于匹配不包含指定術(shù)語(yǔ)的文檔。
Script Query：用于根據(jù)指定的腳本匹配文檔。

下面看下一些常用的簡(jiǎn)單查詢(xún)，后面的復(fù)合查詢(xún)以及聚合查詢(xún)都是基于這些簡(jiǎn)單查詢(xún)來(lái)組合嵌套來(lái)實(shí)現(xiàn)。

URL : POST localhost:9200/index_novel/_search

match

根據(jù)關(guān)鍵字對(duì)某個(gè)字段進(jìn)行檢索，當(dāng)然傳入的參數(shù)會(huì)先進(jìn)行分詞，然后進(jìn)行匹配

{
  "_source": ["title","author","type","category","description","status","updateTime"],
  "query": {
    "match": {
      "title": {
        "query": "天下",
        "minimum_should_match": "30%"
      }
    }
  }
}

match_phrase

詞項(xiàng)匹配（查詢(xún)分詞的詞項(xiàng)必須完全匹配到索引分詞的詞項(xiàng)中，并且詞項(xiàng)的相對(duì)位置position必須一致）,分詞后的相對(duì)位置也必須要精準(zhǔn)匹配（slop）

{
  "_source": ["title","author","type","category","description","status","updateTime"],
  "query": {
    "match_phrase": {
      "title" : {"query": "天下", "slop": "1"}
    }
  }
}

term

根據(jù)詞條完全匹配，也就是精確查詢(xún)，搜索前不會(huì)對(duì)搜索詞進(jìn)行分詞解析，直接對(duì)搜索詞進(jìn)行查找；

{
  "_source": ["title","author","type","category","description","status","updateTime"],
  "query": {
    "term": { "author": "淚冠哀歌" }
  }
}

復(fù)合查詢(xún)

bool

query和filter兩種不同的Context

query context：相關(guān)性算分
filter context：不需要算分（ yes or no ），可以緩存cache，性能更高

bool一共支持4中查詢(xún)，每一種子查詢(xún)都可以嵌套多個(gè)簡(jiǎn)單查詢(xún)

must 必須匹配某些條件才可以返回，計(jì)算分值
must_not 必須不匹配某些條件，不計(jì)算分值
should 當(dāng)滿足此條件時(shí)，計(jì)算分值
filter 必須匹配，不會(huì)計(jì)算分值

{
    "query":{
        "bool":{
            "filter":{
                "term":{ "title":"遮天" }
            },
            "should":[
                {
                    "match": { "title":"遮天" }
                }
            ],
            "must":[
                {
                    "match":{ "title":"遮天" }
                }
            ]
        }
    }
}

constant_score

查詢(xún)返回的相似度分與字段上指定boost參數(shù)值相同的數(shù)據(jù)

{
  "_source": ["title","author","type","category","description","status","updateTime"],
  "query": {
    "constant_score": {
      "filter": {
        "term": {
          "description": "天下"
        }
      },
      "boost": 1
    }
  }
}

dis_max

最大析取(disjunction max) 返回的文檔必須要滿足多個(gè)查詢(xún)子句中的一項(xiàng)條件; 若一個(gè)文檔能匹配多個(gè)查詢(xún)子句時(shí),則dis_max查詢(xún)將為能匹配上查詢(xún)子句條件的項(xiàng)增加額外分,即針對(duì)多個(gè)子句文檔有一項(xiàng)滿足就針對(duì)滿足的那一項(xiàng)分配更高分, 這也能打破在多個(gè)文檔都匹配某一個(gè)或多個(gè)條件時(shí)分?jǐn)?shù)相同的情況;

{
  "_source": ["title","author","type","category","description","status","updateTime"],
  "query": {
    "dis_max": {
      "tie_breaker": 0.7,
      "queries": [
        {
          "term": {
            "description": "天下"
          }
        }
      ]
    }
  }
}

聚合查詢(xún)

聚合（aggregations）可以讓我們極其方便的實(shí)現(xiàn)對(duì)數(shù)據(jù)的統(tǒng)計(jì)、分析、運(yùn)算。例如：

語(yǔ)法：

{
  "aggs": {
    "自定義聚合名稱(chēng)": {
      "聚合類(lèi)型": {
          "聚合參數(shù)": "參數(shù)值"
        }
    }
  }
}

聚合類(lèi)型
- Terms（詞條聚合）：按照字段值進(jìn)行分組，統(tǒng)計(jì)每個(gè)分組的文檔數(shù)量。
- Sum（求和聚合）：計(jì)算指定字段的總和。
- Avg（平均值聚合）：計(jì)算指定字段的平均值。
- Min（最小值聚合）：找出指定字段的最小值。
- Max（最大值聚合）：找出指定字段的最大值。
- Stats（統(tǒng)計(jì)聚合）：計(jì)算指定字段的統(tǒng)計(jì)信息，包括最小值、最大值、總和、平均值和文檔數(shù)量。
- Extended Stats（擴(kuò)展統(tǒng)計(jì)聚合）：計(jì)算指定字段的擴(kuò)展統(tǒng)計(jì)信息，包括最小值、最大值、總和、平均值、標(biāo)準(zhǔn)差和文檔數(shù)量。
- Cardinality（基數(shù)聚合）：計(jì)算指定字段的唯一值數(shù)量。
- Date Histogram（日期直方圖聚合）：按照時(shí)間間隔對(duì)日期字段進(jìn)行分組。
- Range（范圍聚合）：將文檔按照指定范圍進(jìn)行分組，例如按照價(jià)格范圍、年齡范圍等。
- Nested（嵌套聚合）：在嵌套字段上執(zhí)行子聚合操作。
聚合參數(shù)
- field（字段）：指定要聚合的字段。
- size（大?。合拗品祷氐木酆贤暗臄?shù)量。
- script（腳本）：使用腳本定義聚合邏輯。
- min_doc_count（最小文檔數(shù)量）：指定聚合桶中文檔的最小數(shù)量要求。
- order（排序）：按照指定字段對(duì)聚合桶進(jìn)行排序。
- include/exclude（包含/排除）：根據(jù)指定的條件包含或排除聚合桶。
- format（格式）：對(duì)聚合結(jié)果進(jìn)行格式化。
- precision_threshold（精度閾值）：用于基數(shù)聚合的精度控制。
- interval（間隔）：用于日期直方圖聚合的時(shí)間間隔設(shè)置。
- range（范圍）：用于范圍聚合的范圍定義。

分頁(yè)

from-size
- 查詢(xún)優(yōu)點(diǎn)

支持隨機(jī)翻頁(yè)

查詢(xún)?nèi)秉c(diǎn)

受制于 max_result_window 設(shè)置，不能無(wú)限制翻頁(yè)。
存在深度翻頁(yè)問(wèn)題，越往后翻頁(yè)越慢。

From + size 查詢(xún)適用場(chǎng)景

第一：非常適合小型數(shù)據(jù)集或者大數(shù)據(jù)集返回 Top N（N <= 10000）結(jié)果集的業(yè)務(wù)場(chǎng)景。
第二：類(lèi)似主流 PC 搜索引擎（谷歌、bing、百度、360、sogou等）支持隨機(jī)跳轉(zhuǎn)分頁(yè)的業(yè)務(wù)場(chǎng)景。

search_after
- search_after 優(yōu)點(diǎn)

不嚴(yán)格受制于 max_result_window，可以無(wú)限制往后翻頁(yè)。 ps：不嚴(yán)格含義：?jiǎn)未握?qǐng)求值不能超過(guò) max_result_window；但總翻頁(yè)結(jié)果集可以超過(guò)。

search_after 缺點(diǎn)

只支持向后翻頁(yè)，不支持隨機(jī)翻頁(yè)。

search_after 適用場(chǎng)景

類(lèi)似：今日頭條分頁(yè)搜索 https://m.toutiao.com/search 不支持隨機(jī)翻頁(yè)，更適合手機(jī)端應(yīng)用的場(chǎng)景。

scroll
- scroll 查詢(xún)優(yōu)點(diǎn)

支持全量遍歷。 ps：?jiǎn)未伪闅v的 size 值也不能超過(guò) max_result_window 大小。

scroll 查詢(xún)?nèi)秉c(diǎn)

響應(yīng)時(shí)間非實(shí)時(shí)。
保留上下文需要足夠的堆內(nèi)存空間。

scroll 查詢(xún)適用場(chǎng)景

全量或數(shù)據(jù)量很大時(shí)遍歷結(jié)果數(shù)據(jù)，而非分頁(yè)查詢(xún)。
官方文檔強(qiáng)調(diào)：不再建議使用scroll API進(jìn)行深度分頁(yè)。如果要分頁(yè)檢索超過(guò) Top 10,000+ 結(jié)果時(shí)，推薦使用：PIT + search_after。

排序

和關(guān)系型數(shù)據(jù)庫(kù)一樣，對(duì)關(guān)鍵屬性進(jìn)行升序或降序返回?cái)?shù)據(jù)。但是要注意，字段不能是text類(lèi)型

{
  "sort": { 
    "insertTime": { "order": "desc" }
  }
}

高亮

我們可能有這樣的需求，在檢索結(jié)果中，將檢索關(guān)鍵詞進(jìn)行高亮展示，就像百度搜索的結(jié)果，標(biāo)題和描述中都標(biāo)記為紅色了，elasticsearch同樣支持這樣的查詢(xún)，返回的高亮內(nèi)容主要是通過(guò)`'元素包裹，當(dāng)然可以通過(guò)配置修改。需要注意的是，設(shè)置的高亮字段需要和檢索字段匹配。

{
  "highlight": {
    "pre_tags": [
      ""
    ],
    "post_tags": [
      ""
    ],
    "fields": {
      "description": {
        "fragment_size": 100, 
        "number_of_fragments": 5
      }
    }
  }
}

集成

Elasticsearch與SpringBoot的集成非常簡(jiǎn)單：

引入依賴(lài)

< dependency >
  < groupId >org.springframework.boot< /groupId >
  < artifactId >spring-boot-starter-web< /artifactId >
< /dependency >

< dependency >
  < groupId >org.springframework.boot< /groupId >
  < artifactId >spring-boot-starter-data-elasticsearch< /artifactId >
< /dependency >

編寫(xiě)文檔對(duì)應(yīng)實(shí)體，申明索引信息
通過(guò)@org.springframework.data.elasticsearch.annotations.Document注解可以定定義索引信息，比如是否在系統(tǒng)啟動(dòng)后自動(dòng)創(chuàng)建
通過(guò)@org.springframework.data.elasticsearch.annotations.Field定義各個(gè)字段類(lèi)型等信息

@Data
@Document(indexName = "index_novel")
public class Novel {
  // 省略 ...
  @Field(type = FieldType.Auto)
  private String title;

  @Field(type = FieldType.Keyword)
  private String author;

  @Field(type = FieldType.Keyword)
  private String type;

  @Field(type = FieldType.Text, analyzer = "ik_max_word")
  private String description;

  @Field(type = FieldType.Text, analyzer = "ik_max_word")
  private String content;
  // 省略...
}

定義DAO抽象接口與代理實(shí)現(xiàn)
通過(guò)自定義接口方便擴(kuò)展，當(dāng)ElasticsearchRepository中提供的方法無(wú)法支持時(shí)，可以根據(jù)業(yè)務(wù)需求自定義查詢(xún)方式
在BaseElasticsearchRepository中，可以基于ElasticsearchOperations自定義各種復(fù)雜查詢(xún)

public interface ElasticsearchDao< T, ID > extends ElasticsearchRepository< T, ID >{
    
}

public class BaseElasticsearchRepository< T,ID > extends SimpleElasticsearchRepository< T,ID > implements ElasticsearchDao< T,ID >{
  private ElasticsearchEntityInformation entityInformation;
  private ElasticsearchOperations elasticsearchOperations;

  public BaseElasticsearchRepository(ElasticsearchEntityInformation metadata, ElasticsearchOperations operations) {
    super(metadata, operations);
    this.entityInformation = metadata;
    this.elasticsearchOperations = operations;
  }
}

public interface NovelDao extends ElasticsearchDao< Novel, String > {

}

啟用Repository并配置DAO的通用實(shí)現(xiàn)

@SpringBootApplication
@EnableElasticsearchRepositories(basePackages = "com.sucl.springbootelasticsearch8.dao", repositoryBaseClass = BaseElasticsearchRepository.class)
public class SpringbootElasticsearch8Application {

    public static void main(String[] args) {
        SpringApplication.run(SpringbootElasticsearch8Application.class, args);
    }

}

在Service層的使用

@Service
public class NovelService {

  private NovelDao novelDao;

  public NovelService(NovelDao novelDao) {
    this.novelDao = novelDao;
  }
}

基于SpringBoot對(duì)Elasticsearch的繼承整體比較簡(jiǎn)單，由于ES的查詢(xún)種類(lèi)非常多，在Spring中提供了與DSL QUERY對(duì)應(yīng)的API可以使用，只不過(guò)沒(méi)法通過(guò)通用的SimpleElasticsearchRepository中實(shí)現(xiàn)。

示例

現(xiàn)在基于ES8做了一個(gè)簡(jiǎn)單的示例，主要包括以下功能：

從起點(diǎn)小說(shuō)網(wǎng)按類(lèi)型加載小說(shuō)到es
基于spring-boot-starter-data-elasticsearch實(shí)現(xiàn)小說(shuō)句的檢索

起點(diǎn)小說(shuō)數(shù)據(jù)加載到elasticsearch，主要實(shí)現(xiàn)方式是通過(guò)工具jsoup解析小說(shuō)網(wǎng)站的，并按文檔結(jié)構(gòu)組裝文檔數(shù)據(jù)，并調(diào)用es API將數(shù)據(jù)存儲(chǔ)到es中，大概有以下幾個(gè)過(guò)程

訪問(wèn)起點(diǎn)小說(shuō)網(wǎng)https://www.qidian.com/free/all/，根據(jù)傳入的分類(lèi)與頁(yè)碼參數(shù)按頁(yè)獲取頁(yè)面html
解析上一步html，分別獲取每個(gè)小說(shuō)目錄html片段，解析成一部小說(shuō)文檔數(shù)據(jù)
按目錄分別加載每個(gè)章節(jié)頁(yè)面html，按章節(jié)分別加載章節(jié)小說(shuō)內(nèi)容，最后將所有內(nèi)容拼接到小說(shuō)文檔數(shù)據(jù)中
調(diào)用API將小說(shuō)數(shù)據(jù)存儲(chǔ)到elasticsearch
篇幅有限，具體實(shí)現(xiàn)可以參考下面的github

小說(shuō)查詢(xún)相關(guān)DAO可以參考上面的集成

略

添加service與controller

@Service
public class NovelService {

  private NovelDao novelDao;

  public NovelService(NovelDao novelDao) {
    this.novelDao = novelDao;
  }

  /**
   * 批量保存
   * @param novels
   * @return
   */
  public List< Novel > saveNovels(List< Novel > novels) {
    List< Novel > savedNovels = new ArrayList<  >();
    novels.forEach(this::configureNovel);
    novelDao.saveAll(novels).forEach(savedNovels::add);
    return savedNovels;
  }

  /**
   * 根據(jù)關(guān)鍵字在指定字段值檢索
   * @param keyword
   * @param fields
   * @return
   */
  public List< Novel > searchNovels(String keyword, String[] fields) {
    DslQuery dslQuery = DslQuery.of(DslQuery.Type.MULTI_MATCH, String.join(",",fields), keyword);
    return novelDao.commonQuery(dslQuery, null);
  }
  
  /**
   * 根據(jù)主鍵查詢(xún)單條數(shù)據(jù)，按指定字段查找相似數(shù)據(jù)
   * @param novel
   * @param fields
   * @param pageable
   * @return
   */
  public Page< Novel > getPageSimilarNovel(Novel novel, String[] fields, Pager pager) {
    return novelDao.searchSimilar(novel, fields, PageRequest.of(pager.getPageIndex(), pager.getPageSize()));
  }
  
}

示例內(nèi)容涉及到Elasticsearch DSL QUERY組裝過(guò)程以及上面說(shuō)到的SimpleElasticsearchRepository不足以支撐業(yè)務(wù)查詢(xún)時(shí)的一些擴(kuò)展方法。示例使用了起點(diǎn)小說(shuō)網(wǎng)站加載小說(shuō)數(shù)據(jù)，其他網(wǎng)站實(shí)現(xiàn)思路一樣。由于篇幅原因，具體代碼實(shí)現(xiàn)可以參考：

https://github.com/sucls/springboot-elasticsearch-8

結(jié)束語(yǔ)

Elasticsearch版本有7.x升級(jí)到8.x時(shí)，不僅僅是客戶端的變更，運(yùn)行環(huán)境也有較大的改變，Spring版本也做了大版本升級(jí)。最后在項(xiàng)目里僅僅是修改了客戶端用來(lái)匹配與es服務(wù)交互時(shí)，保證請(qǐng)求響應(yīng)的過(guò)程沒(méi)有問(wèn)題。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

存儲(chǔ)

存儲(chǔ)

+關(guān)注

關(guān)注
13

文章
4363

瀏覽量
86223
模型

模型

+關(guān)注

關(guān)注
1

文章
3358

瀏覽量
49283
漏洞

漏洞

+關(guān)注

關(guān)注
0

文章
205

瀏覽量
15447
自然語(yǔ)言

自然語(yǔ)言

+關(guān)注

關(guān)注
1

文章
291

瀏覽量
13409
Elasticsearch

Elasticsearch

+關(guān)注

關(guān)注
0

文章
30

瀏覽量
2855

評(píng)論

相關(guān)推薦

欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

搜索歷史

Elasticsearch存在的各種漏洞問(wèn)題

elasticsearch 8

創(chuàng)建索引

字段類(lèi)型

text

keyword

Auto

查詢(xún)

match

match_phrase

term

復(fù)合查詢(xún)

bool

constant_score

dis_max

聚合查詢(xún)

分頁(yè)

排序

高亮

集成

示例

結(jié)束語(yǔ)

評(píng)論

Windows安裝ElasticSearch

linux安裝配置ElasticSearch之源碼安裝

ElasticSearch的詞條查詢(xún)

docker安裝Elasticsearch操作指南

ElasticSearch的初步環(huán)境

PCB設(shè)計(jì)中存在的漏洞有哪些？

采用ZigBee協(xié)議的智能家居設(shè)備存在漏洞嗎？

elasticsearch介紹PPT

Elasticsearch6.1教程

ElasticSearch是什么？應(yīng)用場(chǎng)景是什么？

MySQL數(shù)據(jù)如何同步Elasticsearch

Elasticsearch保姆級(jí)入門(mén)

SpringBoot 連接ElasticSearch的使用方式

Python 更新 Elasticsearch 的幾種方法

蘋(píng)果承認(rèn)GPU存在安全漏洞