Logstash需安装logstash-filter-xml插件解析XML,配置xpath映射字段并设store_xml=>false;处理重复节点需force_array与split配合;数值和时间字段须类型转换与date过滤;输出前应清洗编码、命名空间及转义字符。

Logstash 本身不直接内置 XML 过滤器,但可通过 logstash-filter-xml 插件解析 XML 数据。要将 XML 数据导入 Elasticsearch,关键在于:先用 Logstash 正确解析 XML 结构,再将字段映射为 JSON 格式写入 Elasticsearch。
安装 XML 过滤器插件
Logstash 默认不包含 XML 解析能力,需手动安装官方插件:
- 运行命令:
bin/logstash-plugin install logstash-filter-xml - 安装后重启 Logstash(若已运行)
- 确认安装成功:执行
bin/logstash-plugin list | grep xml应输出logstash-filter-xml
配置 Logstash pipeline 解析 XML
XML 过滤器要求输入是字符串格式的完整 XML(如来自 file、http、kafka 或 beats 输入),且需指定目标字段和 XPath 映射规则。常见配置示例:
filter {
xml {
source => "message" # 指定含 XML 内容的字段名(如 file 输入的默认字段)
target => "parsed_xml" # 解析结果存入新字段
store_xml => false # 设为 false 可避免嵌套 XML 字符串,推荐
xpath => [
"/root/entry/title/text()", "title",
"/root/entry/content/text()", "content",
"/root/entry/@id", "entry_id",
"/root/entry/time/@iso", "timestamp"
]
}
# 若需时间字段用于 @timestamp,可转换
date {
match => ["timestamp", "ISO8601"]
target => "@timestamp"
}
}登录后复制
注意:store_xml => false 是关键,否则会把整个 XML 当字符串塞进字段;xpath 数组中每对值分别是 XPath 表达式和对应输出字段名。
处理嵌套与重复节点(如多个 - )
当 XML 含多个同级节点(如 RSS 中多个 xml 插件的 force_array 和后续 split 处理:
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。
还木有评论哦,快来抢沙发吧~