c++如何处理Unicode字符串_c++ UTF-8/16/32编码与转换【国际化】

admin 百科 2025-12-18 20

C++中应默认用UTF-8（std::string）处理Unicode，源码存UTF-8、字面量用u8""，避免wstring陷阱；转换用utf8cpp或系统API；国际化需结合locale、资源分离与格式化库。

c++如何处理Unicode字符串_c++ UTF-8/16/32编码与转换【国际化】-第1张图片-佛山资讯网

在 C++ 中处理 Unicode 字符串，核心是理解编码、标准库支持边界，以及跨平台兼容性。C++11 起引入了 char16_t / char32_t 和 u"" / U"" 字面量，但标准库对 Unicode 的原生支持仍有限——std::string 本质仍是字节容器，std::wstring 行为因平台而异（Windows 用 UTF-16，Linux/macOS 通常用 UTF-32）。真正可靠的 Unicode 处理需结合编码识别、转换与外部库辅助。

UTF-8 是 C++ 跨平台字符串的默认事实标准

现代 C++ 项目（尤其网络、文件 I/O、CLI 工具）应默认使用 std::string 存储 UTF-8 编码的 Unicode 文本。它兼容 ASCII、内存紧凑、无字节序问题，且 Linux/macOS 终端、HTTP 协议、JSON 等均以 UTF-8 为首选。

源文件保存为 UTF-8（带或不带 BOM，但建议不带，避免 GCC/Clang 解析异常）
字符串字面量直接写中文或 emoji：std::string s = "你好 ?";（前提是编辑器和编译器都按 UTF-8 解读源码）
用 u8"" 前缀显式声明 UTF-8 字面量，增强可读性与可移植性：auto s = u8"café 世界";
注意：std::string::size() 返回字节数，不是字符数；遍历“字符”需 UTF-8 解码（如用 utf8cpp 或手动解析）

UTF-16/UTF-32 需明确用途，慎用 wstring

std::wstring 不等于“Unicode 字符串”，它只是宽字符容器，其 value_type 在不同平台含义不同：Windows 是 unsigned short（UTF-16），Linux/macOS 通常是 wchar_t（4 字节，对应 UTF-32）。混用易导致二进制不兼容或截断。

仅在调用 Windows API（如 CreateFileW）、COM 接口等要求 UTF-16 的场景，才用 std::wstring + L""
用 std::u16string / std::u32string 替代 wstring 可提升语义清晰度：std::u16string u16 = u"αβγ";、std::u32string u32 = U"?";
不要假设 u16string.size() 等于 Unicode 码点数——UTF-16 有代理对（surrogate pairs），一个 emoji 可能占 2 个 char16_t