Python正则表达式实战案例_文本匹配与替换技巧【教程】

admin 百科 20
Python正则表达式重在解决实际文本问题:1.手机号提取需兼顾格式与防误匹配;2.日志清洗用re.sub去除时间戳和IP;3.文件重命名靠捕获组调换顺序;4.邮箱识别需边界控制并生成mailto链接。

Python正则表达式实战案例_文本匹配与替换技巧【教程】-第1张图片-佛山资讯网

Python正则表达式不是背语法,而是解决实际文本问题的工具。掌握几个典型场景的写法,比记满页符号更有用。

提取手机号:兼顾常见格式和防误匹配

国内手机号通常为11位,以1开头,第二位常见3-9;但要注意避开“110”“119”等特殊号段,也别把带分隔符的字符串(如138-1234-5678)错当有效号码。

  • 基础匹配:r'1[3-9]\d{9}' —— 精准抓纯数字11位手机号
  • 支持空格/短横线:r'1[3-9]\d{2}[-\s]?\d{4}[-\s]?\d{4}'注意?表示前面的分隔符可有可无
  • 防止匹配到更长数字中的子串:用 \b(词边界)包住,如 r'\b1[3-9]\d{9}\b'

清洗日志行:去掉时间戳和IP,保留核心信息

服务器日志常形如 [2024-03-15 14:22:08] 192.168.1.100 "GET /api/user HTTP/1.1" 200,想只留请求路径和状态码。

  • 先用 re.sub() 去掉开头时间:re.sub(r'^\[.*?\]\s+', '', line)
  • 再删IP和引号包裹的请求行:re.sub(r'\d+\.\d+\.\d+\.\d+\s+"[^"]*"\s+', '', line)
  • 组合起来更简洁:re.sub(r'^\[.*?\]\s+\d+\.\d+\.\d+\.\d+\s+"[^"]*"\s+', '', line)

批量重命名文件:从“report_20240315_v2.txt”改成“2024-03-15-report-v2.txt”

关键在捕获年月日并插入分隔符,同时调换字段顺序。

标签: python html 正则表达式 工具 ai 邮箱 状态码 python正则表达式

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~