Elasticsearch rollover API

发表于 2020-01-02 | 更新于: 2020-01-02 | 分类于 elk

| 字数统计: 1.8k 字 | 阅读时长 ≈ 8 分钟

rollover使您可以根据索引大小，文档数或使用期限自动过渡到新索引。当rollover触发后，将创建新索引，写别名（write alias)将更新为指向新索引，所有后续更新都将写入新索引。

对于基于时间的rollover来说，基于大小，文档数或使用期限过渡至新索引是比较适合的。在任意时间rollover通常会导致许多小的索引，这可能会对性能和资源使用产生负面影响。

Rollover历史数据

在大多数情况下，无限期保留历史数据是不可行的
- 时间序列数据随着时间的流逝而失去价值，我们最终不得不将其删除
- 但是其中一些数据对于分析仍然非常有用
Elasticsearch 6.3引入了一项新的rollover功能，该功能
- 以紧凑的聚合格式保存旧数据
- 仅保存您感兴趣的数据

就像上面的图片看到的那样，我们定义了一个叫做logs-alias的alias，对于写操作来说，它总是会自动指向最新的可以用于写入index的一个索引。针对我们上面的情况，它指向logs-000002。如果新的rollover发生后，新的logs-000003将被生成，并对于写操作来说，它自动指向最新生产的logs-000003索引。而对于读写操作来说，它将同时指向最先的logs-1，logs-000002及logs-000003。在这里我们需要注意的是：在我们最早设定index名字时，最后的一个字符必须是数字，比如我们上面显示的logs-1。否则，自动生产index将会失败。

rollover例子

我们还是先拿一个rollover的例子来说明，这样比较清楚。首先我们定义一个log-alias的alias:

PUT /%3Clogs-%7Bnow%2Fd%7D-1%3E
{
  "aliases": {
    "log_alias": {
      "is_write_index": true
    }
  }
}

如果大家对于上面的字符串“%3Clogs-%7Bnow%2Fd%7D-1%3E”比较陌生的话，可以参考网站https://www.urlencoder.io/。实际上它就是字符串“<logs-{now/d}-1>”的url编码形式。请注意上面的is_write_index必须设置为true。运行上面的结果是：

阅读全文 »

Elasticsearch Reindex接口

发表于 2020-01-02 | 更新于: 2020-01-02 | 分类于 elk

| 字数统计: 2.3k 字 | 阅读时长 ≈ 11 分钟

在我们开发的过程中，我们有很多时候需要用到Reindex接口。它可以帮我们把数据从一个index到另外一个index进行重新reindex。这个对于特别适用于我们在修改我们数据的mapping后，需要重新把数据从现有的index转到新的index建立新的索引，这是因为我们不能修改现有的index的mapping一旦已经定下来了。在接下来的介绍中，我们将学习如何使用reindex接口。

为了能够使用reindex接口，我们必须满足一下的条件：

_source选项对所有的源index文档是启动的，也即源index的source是被存储的
reindex不是帮我们尝试设置好目的地index。它不拷贝源index的设置到目的地的index里去。你应该在做reindex之前把目的地的源的index设置好，这其中包括mapping, shard数目，replica等

下面，我们来一个具体的例子，比如建立一个blogs的index。

PUT twitter2/_doc/1
{
  "user" : "双榆树-张三",
  "message" : "今儿天气不错啊，出去转转去",
  "uid" : 2,
  "age" : 20,
  "city" : "北京",
  "province" : "北京",
  "country" : "中国",
  "address" : "中国北京市海淀区",
  "location" : {
    "lat" : "39.970718",
    "lon" : "116.325747"
  }
}

上面的命令让我们建立了一个叫做twitter2的index，并同时帮我们生产了一个如下的mapping:

阅读全文 »

未命名

发表于 2020-01-02 | 更新于: 2019-12-23

| 字数统计: 5.2k 字 | 阅读时长 ≈ 26 分钟

我们之前看见了在Elasticsearch里的ingest node里，我们可以通过以下processor的处理帮我们处理我们的一些数据。它们的功能是非常具体而明确的。那么在Elasticsearch里，有没有一种更加灵活的方式可供我们来进行编程处理呢？如果有，它使用的语言是什么呢？在Elastic ...

阅读全文 »

未命名

发表于 2020-01-02 | 更新于: 2019-12-23

| 字数统计: 2.4k 字 | 阅读时长 ≈ 10 分钟

Ngrams和edge ngrams是在Elasticsearch中标记文本的两种更独特的方式。 Ngrams是一种将一个标记分成一个单词的每个部分的多个子字符的方法。 ngram和edge ngram过滤器都允许您指定min_gram以及max_gram设置。这些设置控制单词被分割成的标记的大小 ...

阅读全文 »

未命名

发表于 2020-01-02 | 更新于: 2019-12-23

| 字数统计: 2.3k 字 | 阅读时长 ≈ 11 分钟

在处理大量数据时，关系数据库存在很多问题。无论是速度，高效处理，有效并行化，可扩展性还是成本，当数据量开始增长时，关系数据库都会失败。该关系数据库的另一个挑战是必须预先定义关系和模式。Elasticsearch也是一个NoSQL文档数据存储。但是，尽管是一个NoSQL数据存储，Elasticse ...

阅读全文 »