Spark SQL需借助spark-xml库读取XML:按Spark版本选对应依赖,用format("xml")及rowTag等option解析为DataFrame,注册视图后支持SQL查询,属性需加@前缀,嵌套字段自动转StructType。

Spark SQL本身不原生支持XML文件读取,需要借助第三方库(如Databricks的spark-xml)将XML解析为DataFrame后,才能用SQL操作。
添加spark-xml依赖
这是最关键的一步。不同Spark版本需匹配对应版本的spark-xml库:
- Spark 3.0+:推荐使用
com.databricks:spark-xml_2.12:0.17.0(Scala 2.12) - Spark 2.4:可用
com.databricks:spark-xml_2.11:0.14.0 - 提交作业时通过
--packages参数自动下载(本地开发或集群提交都适用):spark-shell --packages com.databricks:spark-xml_2.12:0.17.0
读取XML并转为DataFrame
使用format("xml")指定数据源类型,并通过option()设置关键参数:
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。
还木有评论哦,快来抢沙发吧~