怎么用Rust语言解析XML quick-xml库教程

admin 百科 17
quick-xml是Rust中解析XML最常用、性能最佳且文档最全的库,支持流式(Reader)和serde反序列化两种方式;需在Cargo.toml中添加quick-xml = { version = "0.35", features = ["encoding"] }以支持非UTF-8编码。

怎么用Rust语言解析XML quick-xml库教程-第1张图片-佛山资讯网

用 Rust 解析 XML,quick-xml 是目前最常用、性能最好、文档较全的库。它支持流式(Reader)和树状(events + BytesStart 等)两种解析方式,兼顾内存效率和开发便利性。

安装 quick-xml 依赖

Cargo.toml 中添加:

[dependencies]
quick-xml = { version = "0.35", features = ["encoding"] }

登录后复制

注意:加 features = ["encoding"] 才能正确处理 UTF-8 以外的编码(如 GBK,不过实际中建议 XML 文件统一用 UTF-8)。

基础流式解析:读取元素和文本

适合大文件或只需提取部分字段的场景,不加载整个 XML 到内存。

示例 XML(book.xml):

<library>
  <book id="1">
    <title>Rust编程入门</title>
    <author>张三</author>
  </book>
  <book id="2">
    <title>XML精讲</title>
    <author>李四</author>
  </book>
</library>

登录后复制

Reader 逐事件解析:

use quick_xml::events::BytesStart;
use quick_xml::Reader;

fn main() -> Result<(), Box<std::error::Error>> {
    let xml = r#"
        <library>
          <book id="1">
            <title>Rust编程入门</title>
            <author>张三</author>
          </book>
        </library>"#;

    let mut reader = Reader::from_reader(xml.as_bytes());
    reader.trim_text(true); // 自动忽略纯空白文本节点

    let mut buf = Vec::new();
    let mut books = Vec::new();

    loop {
        match reader.read_event_into(&mut buf) {
            Ok(quick_xml::events::BytesEvent::Start(e)) => {
                if e.name().as_ref() == b"book" {
                    let id = e.attributes()
                        .find(|a| a.key.as_ref() == b"id")
                        .map(|a| std::str::from_utf8(&a.value).unwrap_or("").to_string());
                    books.push((id, String::new(), String::new()));
                }
            }
            Ok(quick_xml::events::BytesEvent::Text(e)) => {
                let text = e.unescape_and_decode(&reader)?; // 安全解码实体(& → &)
                if let Some(last) = books.last_mut() {
                    // 简单逻辑:紧接在 title/author 开始标签后的文本即为内容
                    // 实际中建议用状态机或栈记录当前路径
                }
            }
            Ok(quick_xml::events::BytesEvent::Eof) => break,
            Err(e) => return Err(e.into()),
            _ => {}
        }
        buf.clear();
    }

    Ok(())
}

登录后复制

⚠️ 流式解析需手动维护上下文(比如当前在哪个标签内),适合结构简单或性能敏感场景。

标签: go 编码 字节 中文乱码 ai 常见问题

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~