Elasticsearch 5.51 笔记（1）

421次阅读

没有评论

共计 3952 个字符，预计需要花费 10 分钟才能阅读完成。

分布式实时文件存储.
实时分析的分布式搜索引擎。
可以扩展到上百台服务器，处理 PB 级别的结构化或非结构化数据。

因为 ES 使用 RESTful 做接口，那么它不仅是跨平台的，而且也是跨语言的。

可以在此页面安装最新版本的 ES

如果你需要安装 ELK，那么需要注意版本号，三个版本号必须得是一直的。
ELK 就是 Elasticsearch && logstash && kibana

进入 Elasticsearch 目录，执行./bin/elasticsearch

执行上述命令，会在终端保持，如果想在后台运行，可以使用 ./bin/elasticsearch -d

RESTful 交互方式可以使用终端自带的 Curl, 也可以使用 postman,kibana 的 Dev Tools。

返回信息{

“name” : “e-w08f7”,
“cluster_name” : “app”,
“cluster_uuid” : “YfLUi2T0QTi36ECLRf3ggA”,
“version” : {

"number" : "5.5.1",
"build_hash" : "19c13d0",
"build_date" : "2017-07-18T20:44:24.823Z",
"build_snapshot" : false,
"lucene_version" : "6.6.0"

},
“tagline” : “You Know, for Search”
}

非 java 语言可以使用 resultful 风格向本机 9200 发送请求, 例如查询集群总数。

GET _count?pretty 使用 kibana 的 Dev Tools
curl -XGET 'http://localhost:9200/_count?pretty'  使用终端 curl 命令

demo

相应的 HTTP 请求方法或者变量 : GET, POST, PUT, HEAD 或者 DELETE。
集群中任意一个节点的访问协议、主机名以及端口。
请求的路径。
任意一个查询后再加上 ?pretty 就可以生成更加美观的 JSON 反馈，以增强可读性。
一个 JSON 编码的请求主体（如果需要的话）。

ES 是面向文档型数据库, 这意味着它存储的是整个对象或者文档，它不但会存储它们，还会为他们建立索引.

ES 使用 json 做为文档序列化的格式. 一个 json 对象可以理解为一个文档.

这里的索引是一个动词，不是一个名词，区别与 mysql 的索引。
例子：
想象我们正在为一个名叫 megacorp 的公司的 HR 部门制作一个新的员工名单系统，这些名单应该可以满足实时协同工作，所以它应该可以满足以下要求：

数据可以包含多个值的标签、数字以及纯文本内容，
可以检索任何职员的所有数据。
允许结构化搜索。例如，查找 30 岁以上的员工。
允许简单的全文搜索以及相对复杂的短语搜索。
在返回的匹配文档中高亮关键字。
拥有数据统计与管理的后台。

结构化搜索可以理解为搜索一个类型，比如上文的 30 岁以上员工(where age > 30), 比如只查找女性(where sex = 2)，全文检索分两部分，一个是检索词，一个是文档，在存储为文档的时候，会将文档分词，拆分为一个一个的词语，检索词在检索时也会查分成一个一个词语，然后进行匹配。在查询的时候，可以通过参数获取高亮关键字。

关键字：索引、类型、文档

此处的索引相当于 mysql 的数据库, 可以有多个索引，类型相当于数据表, 文档就是一行一行数据，每个文档都代表一个员工.

操作流程：

为每一个员工的文档创建索引，每个文档都包含了一个员工的所有信息。
每个文档都会被标记为 employee 类型。
这种类型将存活在 megacorp 这个索引中。
这个索引将会存储在 Elasticsearch 的集群中

索引 (数据库) 为 megacorp, 类型 (数据表) 为 employee, 文档 (列) 就是每个员工的信息.

创建一个员工文档，并保存在 megacorp 索引中的 employee 类型下，不需要显示的创建，会在创建的过程中设定默认值。

PUT /megacorp/employee/1
{
    "first_name" : "John",
    "last_name" :  "Smith",
    "age" :        25,
    "about" :      "I love to go rock climbing",
    "interests": ["sports", "music"]
}

返回信息.

此处可以看到,created 的值为 true, 因为我已经创建过 1 的员工，如果再创建一次，created 的值就会为 false。

检索第一个员工，这里没有进行全文检索只是查询第一个员工，格式为 GET /megacorp/employee/1

GET 的 HTTP 操作方式，这里为读取，megacorp 为索引名，employee 为类型名，1 为要查询的数据.
结果如下:

查询第一个员工

这里可以看到两个不同的命令，一个是 PUT 一个是 GET，一个表示插入，一个表示读取，如果希望删除，则将 GET 修改为 DELETE，如果希望查看是否存在，则使用 HEAD，如果是更新数据，则还是使用 PUT，数据格式同上。右侧可以看到我们想要的数据.

搜索整个类型下所有内容

GET /megacorp/employee/_search 表示搜索 employee 下的所有文档

右侧有几个关键词，total 表示一共有多少个文档,hits 表示所有文档，__index 表示所属哪个索引，

__type 表示为哪个类型.

搜索姓氏包含 Smith

GET /megacorp/employee/_search?q=last_name:Smith queryString 方式.
不过 query string 方式有其局限性，比如说过滤器等等，可以采用更灵活、方便的 Query DSL 方式.

    GET /megacorp/employee/_search
{
    "query" : {
        "match" : {"last_name" : "Smith"}
    }
}

这里使用了 json 作为查询条件，更为简洁干净。

查询条件为，last_name =Smith, 并且年纪大于 30。

GET megacorp/employee/_search
{
  "query": {
    "bool": {"must": { "match": {"last_name":"Fir"} },
      "filter": {
        "range": {
          "age": {"gte": 30}
        }
      }
    }
  }
}

以上 demo 工作在 5.51 版本。

搜索所有喜欢 climbing(攀岩)的员工

GET megacorp/employee/_search
{
  "query": {
    "match": {"about": "climbing"  #这里测试时最好是多个词，因为 es 会进行拆分再进行匹配}
  }
}

返回精确匹配员工

GET /megacorp/employee/_search
{
    "query" : {
        "match_phrase" : {"about" : "rock climbing"}
    }
}

增加 highlight 参数

GET /megacorp/employee/_search
{
    "query" : {
        "match_phrase" : {"about" : "rock climbing"}
    },
      "highlight": {
        "fields" : {"about" : {}
        }
    }
}

员工中最受欢迎的兴趣是什么：

GET /megacorp/employee/_search
{
  "aggs": {
    "all_interests": {"terms": { "field": "interests"}
    }
  }
}

在执行以上查询时会发生错误

Fielddata is disabled on text fields by default. Set fielddata=true on [interests] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use significant memory. Alternatively use a keyword field instead

5.x 后对排序，聚合这些操作用单独的数据结构 (fielddata) 缓存到内存里了，需要单独开启.

执行以下操作

 PUT megacorp/_mapping/employee/
{
  "properties": {
    "interests": {
      "type":     "text",
      "fielddata": true
    }
  }
}

返回结果

上图右侧展示了，喜欢音乐的有 4 个，喜欢运动的有 3 个等等。

GET /megacorp/employee/_search
{
  "query": {
    "match": {"last_name": "smith"}
  },
  "aggs": {
    "all_interests": {"terms": { "field": "interests"}
    }
  }
}

只需要加上刚才的 query 参数.

GET /megacorp/employee/_search
{
  "query": {
    "match": {"last_name": "smith"}
  },
  "aggs": {
    "all_interests": {"terms": { "field": "interests"},
      "aggs": {
        "age_avg": {
          "avg": {"field": "age"}
        }
      }
    }
  }
}

只需要在 aggs 下的 terms 后面增加 aggs 参数，aggs 里的 age_avg 可以自定义。

正文完

elasticsearch

发表至： Elasticsearch

2017-08-21

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

Elasticsearch 5.51 笔记（1）

Elasticsearch 5.51 笔记（2）

mysql 搜索优化之全文索引Elasticsearch.

Elasticsearch 5.51 笔记（1）

本文参考 ES 全文指南翻译版，做出一些学习笔记，顺便修改了一些过时代码。以保证在 ES5.51 版可用。

Elasticsearch 建立在 Lucene 基础上的搜索引擎,Lucene 是当今最先进，最高效的全功能开源搜索引擎 #框架。

特点：

安装

运行

默认，开启的是本机 9200 端口，可以在浏览器输入 “http://localhost:9200/?pretty”

API:

面向文档:

索引

检索文档：

简易搜索

更加复杂的搜索

全文搜索

精确匹配

高亮关键字

汇总、统计

查找姓 smith 的兴趣汇总

每个兴趣下的平均年龄

Elasticsearch 5.51 笔记 （1）

本文参考 ES 全文指南翻译版，做出一些学习笔记，顺便修改了一些过时代码。以保证在 ES5.51 版可用。

Elasticsearch 建立在 Lucene 基础上的搜索引擎,Lucene 是当今最先进，最高效的全功能开源搜索引擎 #框架。

特点：

安装

运行

默认，开启的是本机 9200 端口，可以在浏览器输入 “http://localhost:9200/?pretty”

API:

面向文档:

索引

检索文档：

简易搜索

更加复杂的搜索

全文搜索

精确匹配

高亮关键字

汇总、统计

查找姓 smith 的兴趣汇总

每个兴趣下的平均年龄

Elasticsearch 5.51 笔记（1）