Python怎么处理XML中的换行和空白字符

admin 百科 2025-12-13 19

Python处理XML换行和空白需区分“有意义内容”与“格式化空白”：ElementTree默认保留所有空白，可用strip()清理首尾空白，lxml的remove_blank_text=True可跳过纯空白节点，输出时用minidom或lxml美化缩进。

Python怎么处理XML中的换行和空白字符-第1张图片-佛山资讯网

Python处理XML中的换行和空白字符，核心在于区分「有意义的空白」和「格式化用的空白」——默认情况下，xml.etree.ElementTree（标准库）会保留所有文本内容，包括换行符\n、制表符\t和空格，但不会自动“美化”或“清理”。是否保留、如何清理，取决于你的使用场景。

理解XML中空白的两种角色

XML本身不区分“用户数据中的空格”和“编辑器缩进产生的空格”，但人类阅读时习惯用缩进来组织结构。ElementTree把这类缩进也当作普通文本节点（tail 或 text）读入。

元素之间的换行+缩进：通常出现在<parent>\n <child>...</child></parent>中，会被存为parent.text或child.tail，值可能是'\n '
标签内纯文本中的换行：如<desc>第一行\n第二行</desc>，这部分\n属于内容，应保留

默认解析：保留所有空白，但可手动过滤

直接用ET.parse()或ET.fromstring()读取，空白照单全收。你可以遍历后统一清理：

import xml.etree.ElementTree as ET
<p>tree = ET.parse("data.xml")
root = tree.getroot()</p><h1>清理所有text/tail中的首尾空白（含\n\t），但不破坏内部换行</h1><p>for elem in root.iter():
if elem.text is not None:
elem.text = elem.text.strip()
if elem.tail is not None:
elem.tail = elem.tail.strip()

登录后复制

注意：strip()只去首尾，不影响中间的换行；若想彻底删除所有空白字符（不推荐），可用re.sub(r'\s+', '', elem.text)，但会误伤真实内容。

立即学习“Python免费学习笔记（深入）”；

标签： python 处理器 ai 标准库