个人博客

记录工作中的点点滴滴


  • 首页

  • 标签

  • 分类

  • 归档

  • 关于

  • 搜索

Elasticsearch:如何对PDF文件进行搜索

发表于 2020-04-03 | 更新于: 2020-04-03 | 分类于 elk , Elasticsearch
| 字数统计: 972 字 | 阅读时长 ≈ 3 分钟

Elasticsearch 通常用于字符串,数字,日期等数据类型的检索,但是在 HCM、ERP 和电子商务等应用程序中经常存在对办公文档进行搜索的需求。今天的这篇文章中我们来讲一下如何实现 PDF、DOC、XLS 等办公文件的搜索,本解决方案适用于 Elasticsearch 5.0 以后的版本。

实现原理

首先把我们的 .pdf 文件进行 Base64 处理,然后上传到 Elasticsearch 中的 ingest node 中进行处理。我们可以通过 Ingest attachment plugin 来使得 Elasticsearch 提取通用格式的文件附件比如 PPT、XLS及PDF。最终,数据进入到 Elasticsearch 的 data node 中以便让我们进行搜索。

导入PDF文件到Elasticsearch中

准备PDF文件

我们可以使用 Word 或其它编辑软件来生产一个 PDF 文件,暂且我们叫这个文件的名字为 sample.pdf,而它的内容非常简单,在 sample.pdf 文件中,我们只有一句话:“I like this useful tool”。

安装 Ingest attachment plugin

Ingest attachment plugin 允许 Elasticsearch 通过使用 Apache 文本提取库 Tika 提取通用格式(例如:PPT,XLS 和 PDF)的文件附件。Apache Tika 工具包可从一千多种不同的文件类型中检测并提取元数据和文本。所有这些文件类型都可以通过一个界面进行解析,从而使 Tika 对搜索引擎索引,内容分析,翻译等有用。
需要注意的是,源字段必须是 Base64 编码的二进制,如果不想增加在 Base64 之间来回转换的开销,则可以使用 CBOR 格式而不是 JSON,并将字段指定为字节数组而不是字符串表示形式,这样处理器将跳过 Base64 解码。
可以使用插件管理器安装此插件,该插件必须安装在集群中的每个节点上,并且每个节点必须在安装后重新启动。
sudo bin/elasticsearch-plugin install ingest-attachment
等我们安装好这个插件后,我们可以通过如下的命令来查看该插件是否已经被成功安装好了:
./bin/elasticsearch-plugin list

阅读全文 »

Elasticsearch索引和查询性能调优的21条建议

发表于 2020-04-03 | 更新于: 2020-04-03 | 分类于 elk , Elasticsearch
| 字数统计: 5k 字 | 阅读时长 ≈ 21 分钟

Elasticsearch部署建议

1. 选择合理的硬件配置:尽可能使用 SSD

Elasticsearch 最大的瓶颈往往是磁盘读写性能,尤其是随机读取性能。使用SSD(PCI-E接口SSD卡/SATA接口SSD盘)通常比机械硬盘(SATA盘/SAS盘)查询速度快5~10倍,写入性能提升不明显。
对于文档检索类查询性能要求较高的场景,建议考虑 SSD 作为存储,同时按照 1:10 的比例配置内存和硬盘。对于日志分析类查询并发要求较低的场景,可以考虑采用机械硬盘作为存储,同时按照 1:50 的比例配置内存和硬盘。单节点存储数据建议在2TB以内,不要超过5TB,避免查询速度慢、系统不稳定。

2. 给JVM配置机器一半的内存,但是不建议超过32G

修改 conf/jvm.options 配置,-Xms 和 -Xmx 设置为相同的值,推荐设置为机器内存的一半左右,剩余一半留给操作系统缓存使用。JVM 内存建议不要低于 2G,否则有可能因为内存不足导致 ES 无法正常启动或内存溢出,JVM 建议不要超过 32G,否则 JVM 会禁用内存对象指针压缩技术,造成内存浪费。机器内存大于 64G 内存时,推荐配置 -Xms30g -Xmx30g。JVM 堆内存较大时,内存垃圾回收暂停时间比较长,建议配置 ZGC 或 G1 垃圾回收算法。

3. 规模较大的集群配置专有主节点,避免脑裂问题

Elasticsearch 主节点负责集群元信息管理、index 的增删操作、节点的加入剔除,定期将最新的集群状态广播至各个节点。在集群规模较大时,建议配置专有主节点只负责集群管理,不存储数据,不承担数据读写压力。

1
2
3
4
5
6
7
8
9
10
# 专有主节点配置(conf/elasticsearch.yml):
node.master:true
node.data: false
node.ingest:false


# 数据节点配置(conf/elasticsearch.yml):
node.master:false
node.data:true
node.ingest:true

Elasticsearch 默认每个节点既是候选主节点,又是数据节点。最小主节点数量参数 minimum_master_nodes 推荐配置为候选主节点数量一半以上,该配置告诉 Elasticsearch 当没有足够的 master 候选节点的时候,不进行 master 节点选举,等 master 节点足够了才进行选举。
例如对于 3 节点集群,最小主节点数量从默认值 1 改为 2。

1
2
# 最小主节点数量配置(conf/elasticsearch.yml):
discovery.zen.minimum_master_nodes: 2

阅读全文 »

Logstash集成GaussDB(高斯DB)数据到Elasticsearch

发表于 2020-04-03 | 更新于: 2020-04-03 | 分类于 elk , Logstash , GaussDB , Elasticsearch
| 字数统计: 1k 字 | 阅读时长 ≈ 4 分钟

GaussDB 简介

GaussDB 数据库分为 GaussDB T 和 GaussDB A,分别面向 OLTP 和 OLAP 的业务用户。
GaussDB T 数据库是华为公司全自研的分布式数据库,支持x86和华为鲲鹏硬件架构。基于创新性数据库内核,提供高并发事务实时处理能力、两地三中心金融级高可用能力和分布式高扩展能力。
GaussDB A 是一款具备分析及混合负载能力的分布式数据库,支持x86和华为鲲鹏硬件架构,支持行存储与列存储,提供PB级数据分析能力、多模分析能力和实时处理能力,用于数据仓库、数据集市、实时分析、实时决策和混合负载等场景,广泛应用于金融、政府、电信等行业核心系统。

Logstash 的 jdbc input plugin

参考 Logstash的 Jdbc input plugin 的官方文档,该插件可以通过JDBC接口将任何数据库中的数据导入 Logstash。周期性加载或一次加载,每一行是一个 event,列转成 filed。我们先解读下文档里提到的重要配置项。

1
2
3
4
5
6
7
jdbc_driver_library:JDBC驱动包路径。
jdbc_driver_class:JDBC驱动程序类。
jdbc_connection_string:JDBC连接串。
jdbc_user:数据库用户名。
jdbc_password:数据库用户口令。
statement_filepath:SQL语句所在文件路径。
scheduler:调度计划。

阅读全文 »

详细说明-CentOS7部署FastDFS+nginx模块

发表于 2020-04-02 | 更新于: 2020-04-02 | 分类于 nginx , FastDFS
| 字数统计: 2.7k 字 | 阅读时长 ≈ 13 分钟

软件下载

1
2
3
4
5
6
# 已经事先把所需软件下载好并上传到/usr/local/src目录了
https://github.com/happyfish100/libfastcommon/archive/V1.0.43.tar.gz
https://github.com/happyfish100/fastdfs-nginx-module/archive/V1.22.tar.gz
https://github.com/happyfish100/fastdfs/archive/V6.06.tar.gz
https://github.com/happyfish100/fastdfs-client-java/archive/V1.28.tar.gz
https://openresty.org/download/openresty-1.15.8.3.tar.gz

基础环境设置

安装依赖组件

1
2
yum -y install  gcc gcc-c++ libevent
yum -y groupinstall 'Development Tools'

阅读全文 »

CentOS7部署FastDFS+nginx模块

发表于 2020-04-02 | 更新于: 2020-04-08 | 分类于 nginx , FastDFS
| 字数统计: 1.6k 字 | 阅读时长 ≈ 8 分钟

软件下载

1
2
3
4
5
6
# 已经事先把所需软件下载好并上传到/usr/local/src目录了
https://github.com/happyfish100/libfastcommon/archive/V1.0.43.tar.gz
https://github.com/happyfish100/fastdfs-nginx-module/archive/V1.22.tar.gz
https://github.com/happyfish100/fastdfs/archive/V6.06.tar.gz
https://github.com/happyfish100/fastdfs-client-java/archive/V1.28.tar.gz
https://openresty.org/download/openresty-1.15.8.3.tar.gz

基础环境设置

安装依赖组件

1
2
yum -y install  gcc gcc-c++ libevent
yum -y groupinstall 'Development Tools'

阅读全文 »

1…345…29
永夜初晗凝碧天

永夜初晗凝碧天

Linux,Python,MySQL,ELK Stack,K8S,Docker

141 日志
55 分类
60 标签
RSS
QQ E-Mail
友情链接
  • 博客园
  • 百度
近期文章
  • Elasticsearch IK 分词器
  • 为Elasticsearch启动https访问
  • FastAPI框架入门 基本使用, 模版渲染, form表单数据交互, 上传文件, 静态文件配置
  • Elasticsearch:使用_update_by_query更新文档
  • Solutions:安全的APM服务器访问
© 2019 — 2020 永夜初晗凝碧天
博客全站字数统计 : 412.1k 字 ||载入天数...载入时分秒...
本文总阅读量次 || 本站访客数人次 || 本站总访问量次