什么是TEI(文本编码规范) 学术XML标准

admin 百科 2025-12-18 20

TEI是一套面向人文学科的国际通行学术XML编码规范，以结构化语义标签整合文本与元数据，强制包含四大元数据区块，采用模块化设计并由P5 Schema严格约束，根元素为，分和两大部分，广泛应用于古籍整理、版本比对与数字出版。

什么是TEI(文本编码规范) 学术XML标准-第1张图片-佛山资讯网

TEI（Text Encoding Initiative，文本编码倡议）不是一种工具或软件，而是一套面向人文学科的、国际通行的学术XML编码规范。它用结构化、语义明确的XML标签，把文本内容和元数据（如作者、年代、语言、版本、手稿状态等）一起打包保存，让古籍、信札、诗歌、词典等复杂文本既能被人读懂，也能被机器识别、检索、分析和长期存档。

它为什么是“学术XML标准”

因为TEI不是通用XML，而是专为学术研究定制的XML框架：

所有标签都有明确定义的人文语义，比如<gap reason="illegible"></gap>表示手稿中无法辨认的文字，<choice><sic>旧写法</sic><corr>校正后</corr></choice>记录校勘过程；
强制包含四大元数据区块：fileDesc（文献描述）、encodingDesc（编码说明）、profileDesc（内容特征）、revisionDesc（修订日志），确保每份数字文本可溯源、可复现；
采用模块化设计，支持按需组合——研究简牍可用“手稿描述模块”，编纂词典则启用“词典编码模块”，不强求全功能；
所有标签定义由TEI联盟通过XML Schema（P5版）严格约束，任何TEI文件都可通过验证工具（如Trafilatura、Oxygen）自动校验是否合规。

它的基本结构长什么样

一个合法TEI文档必须以<tei></tei>为根元素，内部严格分为两大部分：

<teiheader></teiheader>：存放全部元数据，包括标题、作者、创建时间、语言标识（xml:lang）、关键词、编码依据等；
<text></text>：承载正文内容，通常再细分为<front></front>（前言/目录）、（主体）、<back></back>（附录/索引），层级清晰，便于分段处理与多模态关联（如图文对照）。

例如，一段带异体字标注的古文可能这样编码：

标签： html 编码工具 pdf 为什么

本文地址： https://www.fsgp.cn/p/baike/73462.html