Elasticsearch：如何对PDF文件进行搜索

发表于 2020-04-03 | 更新于: 2020-04-03 | 分类于 elk ， Elasticsearch

| 字数统计: 972 字 | 阅读时长 ≈ 3 分钟

Elasticsearch 通常用于字符串，数字，日期等数据类型的检索，但是在 HCM、ERP 和电子商务等应用程序中经常存在对办公文档进行搜索的需求。今天的这篇文章中我们来讲一下如何实现 PDF、DOC、XLS 等办公文件的搜索，本解决方案适用于 Elasticsearch 5.0 以后的版本。

实现原理

首先把我们的 .pdf 文件进行 Base64 处理，然后上传到 Elasticsearch 中的 ingest node 中进行处理。我们可以通过 Ingest attachment plugin 来使得 Elasticsearch 提取通用格式的文件附件比如 PPT、XLS及PDF。最终，数据进入到 Elasticsearch 的 data node 中以便让我们进行搜索。

导入PDF文件到Elasticsearch中

准备PDF文件

我们可以使用 Word 或其它编辑软件来生产一个 PDF 文件，暂且我们叫这个文件的名字为 sample.pdf，而它的内容非常简单，在 sample.pdf 文件中，我们只有一句话：“I like this useful tool”。

安装 Ingest attachment plugin

Ingest attachment plugin 允许 Elasticsearch 通过使用 Apache 文本提取库 Tika 提取通用格式（例如：PPT，XLS 和 PDF）的文件附件。Apache Tika 工具包可从一千多种不同的文件类型中检测并提取元数据和文本。所有这些文件类型都可以通过一个界面进行解析，从而使 Tika 对搜索引擎索引，内容分析，翻译等有用。
需要注意的是，源字段必须是 Base64 编码的二进制，如果不想增加在 Base64 之间来回转换的开销，则可以使用 CBOR 格式而不是 JSON，并将字段指定为字节数组而不是字符串表示形式，这样处理器将跳过 Base64 解码。
可以使用插件管理器安装此插件，该插件必须安装在集群中的每个节点上，并且每个节点必须在安装后重新启动。
sudo bin/elasticsearch-plugin install ingest-attachment
等我们安装好这个插件后，我们可以通过如下的命令来查看该插件是否已经被成功安装好了:
./bin/elasticsearch-plugin list

阅读全文 »

Elasticsearch索引和查询性能调优的21条建议

发表于 2020-04-03 | 更新于: 2020-04-03 | 分类于 elk ， Elasticsearch

| 字数统计: 5k 字 | 阅读时长 ≈ 21 分钟

Elasticsearch部署建议

1. 选择合理的硬件配置：尽可能使用 SSD

Elasticsearch 最大的瓶颈往往是磁盘读写性能，尤其是随机读取性能。使用SSD（PCI-E接口SSD卡/SATA接口SSD盘）通常比机械硬盘（SATA盘/SAS盘）查询速度快5~10倍，写入性能提升不明显。
对于文档检索类查询性能要求较高的场景，建议考虑 SSD 作为存储，同时按照 1:10 的比例配置内存和硬盘。对于日志分析类查询并发要求较低的场景，可以考虑采用机械硬盘作为存储，同时按照 1:50 的比例配置内存和硬盘。单节点存储数据建议在2TB以内，不要超过5TB，避免查询速度慢、系统不稳定。

2. 给JVM配置机器一半的内存，但是不建议超过32G

修改 conf/jvm.options 配置，-Xms 和 -Xmx 设置为相同的值，推荐设置为机器内存的一半左右，剩余一半留给操作系统缓存使用。JVM 内存建议不要低于 2G，否则有可能因为内存不足导致 ES 无法正常启动或内存溢出，JVM 建议不要超过 32G，否则 JVM 会禁用内存对象指针压缩技术，造成内存浪费。机器内存大于 64G 内存时，推荐配置 -Xms30g -Xmx30g。JVM 堆内存较大时，内存垃圾回收暂停时间比较长，建议配置 ZGC 或 G1 垃圾回收算法。

3. 规模较大的集群配置专有主节点，避免脑裂问题

Elasticsearch 主节点负责集群元信息管理、index 的增删操作、节点的加入剔除，定期将最新的集群状态广播至各个节点。在集群规模较大时，建议配置专有主节点只负责集群管理，不存储数据，不承担数据读写压力。

# 专有主节点配置(conf/elasticsearch.yml)：
node.master:true
node.data: false
node.ingest:false


# 数据节点配置(conf/elasticsearch.yml)：
node.master:false
node.data:true
node.ingest:true

Elasticsearch 默认每个节点既是候选主节点，又是数据节点。最小主节点数量参数 minimum_master_nodes 推荐配置为候选主节点数量一半以上，该配置告诉 Elasticsearch 当没有足够的 master 候选节点的时候，不进行 master 节点选举，等 master 节点足够了才进行选举。
例如对于 3 节点集群，最小主节点数量从默认值 1 改为 2。

1 2	# 最小主节点数量配置(conf/elasticsearch.yml)： discovery.zen.minimum_master_nodes: 2

阅读全文 »

Logstash集成GaussDB(高斯DB)数据到Elasticsearch

发表于 2020-04-03 | 更新于: 2020-04-03 | 分类于 elk ， Logstash ， GaussDB ， Elasticsearch

| 字数统计: 1k 字 | 阅读时长 ≈ 4 分钟

GaussDB 简介

GaussDB 数据库分为 GaussDB T 和 GaussDB A，分别面向 OLTP 和 OLAP 的业务用户。
GaussDB T 数据库是华为公司全自研的分布式数据库，支持x86和华为鲲鹏硬件架构。基于创新性数据库内核，提供高并发事务实时处理能力、两地三中心金融级高可用能力和分布式高扩展能力。
GaussDB A 是一款具备分析及混合负载能力的分布式数据库，支持x86和华为鲲鹏硬件架构，支持行存储与列存储，提供PB级数据分析能力、多模分析能力和实时处理能力，用于数据仓库、数据集市、实时分析、实时决策和混合负载等场景，广泛应用于金融、政府、电信等行业核心系统。

Logstash 的 jdbc input plugin

参考 Logstash的 Jdbc input plugin 的官方文档，该插件可以通过JDBC接口将任何数据库中的数据导入 Logstash。周期性加载或一次加载，每一行是一个 event，列转成 filed。我们先解读下文档里提到的重要配置项。

jdbc_driver_library：JDBC驱动包路径。
jdbc_driver_class：JDBC驱动程序类。
jdbc_connection_string：JDBC连接串。
jdbc_user：数据库用户名。
jdbc_password：数据库用户口令。
statement_filepath：SQL语句所在文件路径。
scheduler：调度计划。

阅读全文 »

详细说明-CentOS7部署FastDFS+nginx模块

发表于 2020-04-02 | 更新于: 2020-04-02 | 分类于 nginx ， FastDFS

| 字数统计: 2.7k 字 | 阅读时长 ≈ 13 分钟

软件下载

# 已经事先把所需软件下载好并上传到/usr/local/src目录了
https://github.com/happyfish100/libfastcommon/archive/V1.0.43.tar.gz
https://github.com/happyfish100/fastdfs-nginx-module/archive/V1.22.tar.gz
https://github.com/happyfish100/fastdfs/archive/V6.06.tar.gz
https://github.com/happyfish100/fastdfs-client-java/archive/V1.28.tar.gz
https://openresty.org/download/openresty-1.15.8.3.tar.gz

基础环境设置

安装依赖组件

1 2	yum -y install gcc gcc-c++ libevent yum -y groupinstall 'Development Tools'

阅读全文 »

CentOS7部署FastDFS+nginx模块

发表于 2020-04-02 | 更新于: 2020-04-08 | 分类于 nginx ， FastDFS

| 字数统计: 1.6k 字 | 阅读时长 ≈ 8 分钟

软件下载

# 已经事先把所需软件下载好并上传到/usr/local/src目录了
https://github.com/happyfish100/libfastcommon/archive/V1.0.43.tar.gz
https://github.com/happyfish100/fastdfs-nginx-module/archive/V1.22.tar.gz
https://github.com/happyfish100/fastdfs/archive/V6.06.tar.gz
https://github.com/happyfish100/fastdfs-client-java/archive/V1.28.tar.gz
https://openresty.org/download/openresty-1.15.8.3.tar.gz

基础环境设置

安装依赖组件

1 2	yum -y install gcc gcc-c++ libevent yum -y groupinstall 'Development Tools'

阅读全文 »