使用

时间:2018-07-15 10:17:32

标签: python apache-spark pyspark

         Summary: Running into "Py4JJavaError" while converting list to Dataframe using

Python,Jupyter笔记本                  钥匙:SPARK-24612                  网址:https://issues.apache.org/jira/browse/SPARK-24612              项目:星火           问题类型:问题           组件:PySpark     影响版本:2.3.1          环境:> python --version

Python 3.6.5 :: Anaconda,Inc。

  

java -version

java版本“ 1.8.0_144” Java(TM)SE运行时环境(内部版本1.8.0_144-b01) Java HotSpot(TM)64位服务器VM(内部版本25.144-b01,混合模式)

  

jupyter --version

4.4.0

  

conda -V

conda 4.5.4

spark-2.3.0-bin-hadoop2.7             记者:A B

rdd = sc.parallelize([[1,“ Alice”,50],[2,“ Bob”,80]])

rdd.collect() [[1,“ Alice”,50],[2,“ Bob”,80]]

但是,当我运行df = rdd.toDF()时 我遇到以下错误:非常感谢您解决此错误的任何帮助。

完整链接在这里http://mail-archives.apache.org/mod_mbox/spark-issues/201806.mbox/%3CJIRA.13167277.1529535154000.212161.1529535180018@Atlassian.JIRA%3E

1 个答案:

答案 0 :(得分:0)

那是因为您使用不一致的类型:

  • 在第一行中,最后一个值为int
  • 在第二行中,最后一个值为str

因此类型与推断的架构不兼容。