spark MongoDB 读取大集合文档 schema缺失字段

baipeng 2018-11-09 技术 tech, 技术 0 评论字数统计: 178(字) 阅读时长: 1(分)

1	场景：使用Spark 读取MongoDB中的集合数据，由于文档比较大。mongo-spark-connector 插件默认选择 1000条了推断schema 导致缺失字段。

1	解决办法1：最懒的办法。先查询出来需要读取的数据count,然后在查一下设置sampleSize的大小。可以搞定

解决办法2：获取要查询的字段的list，自己定义schema
       var schemaString = Joiner.on(" ").join(lists)
       println(schemaString)
       //    定义schema
        val schema =
         StructType(schemaString.split(" ").map(fieldName => StructField(fieldName.split(":")(0), if (fieldName.split(":")(1).equals("String")) StringType else IntegerType, true)))
       val df = spark.createDataFrame(d.rdd, schema)

解决办法3：定义结构类
  	case class Creature(name: String, strength: Int, type: String)
	val explicitDF = MongoSpark.load[Creature](sparkSession)()
	explicitDF.printSchema()

本文链接： https://wangxiuwen.github.io/history/tech/5be583a29a6b9e854693698b/
版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

williamwong

Backend Developer & Music Lover

spark MongoDB 读取大集合文档 schema缺失字段