Spark如何解决读取文本或CSV文件中文乱码的问题

 时间:2026-04-23 11:26:01

1、首先要知道源数据是什么中文编码,如果编码不是utf-8的话,用默认的方法读取:

spark.read.option("header","true").csv(path)

spark.read.textFile(path)

就会有中文乱码。

Spark如何解决读取文本或CSV文件中文乱码的问题

2、运行IntelliJ IDEA,创建好相关的工程

Spark如何解决读取文本或CSV文件中文乱码的问题

3、要了解中文乱码的原因,这是原因上面的方法默认用TextInputFormat,而在TextInputFormat中把编码写死为UTF_8

Spark如何解决读取文本或CSV文件中文乱码的问题

4、读取文本文件的,我们可以spark.sparkContext.hadoopFile的方法中,对字符串的编码进行转换

Spark如何解决读取文本或CSV文件中文乱码的问题

5、如果不知道中文编码,可以遍历使用"GBK"、“GB2312"等可能的中文编码,直到输出结果没中文乱码为止

Spark如何解决读取文本或CSV文件中文乱码的问题

6、如果是读取CSV文件的,也是要用hadoopFile这个低层的方法,先进行中文编码转化,再封装好StructField等的类型

Spark如何解决读取文本或CSV文件中文乱码的问题

  • python如何获取网页中指定的图片保存的路径
  • js如何获取表格的id属性值
  • eclipse怎么将包名相同部分收起来
  • word文档中绘图画布如何添加多行文字
  • 浏览器如何查看json格式的数据
  • 热门搜索
    龙纹鲤鱼竿怎么样 小脑萎缩的治疗方法 ppt目录怎么做 用微波炉怎么做蛋糕 五香牛肉的家常做法 广东建设职业技术学院怎么样 方法重载 黄网大全 含笑花的养殖方法 100个经典幽默笑话大全