PythonCSV文件处理技巧_读取写入高效方案【技巧】

admin 百科 2025-12-23 26

Python处理CSV应按需选工具：小文件用csv模块（需显式指定encoding='utf-8-sig'和newline=''防乱码与空行），大文件或分析用pandas（传dtype、chunksize优化性能），混合使用csv预处理+DataFrame构造更高效。

PythonCSV文件处理技巧_读取写入高效方案【技巧】-第1张图片-佛山资讯网

Python处理CSV文件，核心在于用对工具、避开常见坑。pandas虽强，但小文件或纯文本操作时，csv模块更轻量、内存更友好；大文件或需分析时，pandas的向量化操作和自动类型推断才真正提效。

默认open()可能因系统默认编码（如Windows的gbk）导致中文乱码；csv.reader也不自动处理引号内换行符。稳妥做法是显式指定encoding和newline参数：

读取时用open(file, encoding='utf-8-sig', newline='')——utf-8-sig自动跳过BOM头，newline=''防止csv模块误判换行符
写入同理，必须加newline=''，否则Windows下会多出空行
若CSV含复杂字段（如含逗号、换行、引号），确保dialect参数一致，或直接用DictReader/DictWriter按列名操作，更直观

read_csv()默认低效：它逐行扫描推断数据类型，大文件很慢。关键优化点：

明确传入dtype参数（如{'user_id': 'int32', 'name': 'string'}），跳过类型猜测，节省50%以上时间
用chunksize分块读取处理，适合内存受限场景，例如for chunk in pd.read_csv('log.csv', chunksize=10000): process(chunk)
写入时设index=False避免多余索引列；如需保留时间精度，用date_format='%Y-%m-%d %H:%M:%S'