标签: pandas apache-spark pyspark
Spark csv阅读器不如pandas.read_csv灵活,并且似乎无法处理不同格式的解析日期等。在ETL映射步骤中是否有将pandas DataFrame传递给Spark Dataframes的好方法? Spark createDataFrame似乎并不总是有效。打字系统可能没有详尽的映射? Paratext看起来很有前景,但很可能是新的,但尚未大量使用。
例如:Get CSV to Spark dataframe