Spark wholeTextFiles采用冒号(:)作为路径的文件/文件夹名称

时间:2016-09-15 13:42:33

标签: python apache-spark pyspark

我使用Spark处理大量数据(应用程序是用Python 3.4编写的),某些文件和文件夹的名称中包含冒号 where h.PORTFOLIO_ID == Convert.ToInt16(PfID) && h.HLDG_DATE >=Convert.ToDateTime( DTstart) && h.HLDG_DATE <= Convert.ToDateTime(DTend) ,例如:(是的,那是“文件夹名称”或http:。最后一个导致以下错误:

File:a_picture.jpg

它是使用sc.wholeTextFiles()创建的RDD的一部分。 java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: File:a_picture.jpg 引发了类似的错误,期待某种协议。

我无法控制如何创建此数据。我可以在启动Spark应用程序之前重命名所有文件/文件夹;但是我必须运行我的应用程序,修复出现的任何错误,再试一次......你得到了图片。我想保留原来的名字。

有没有办法告诉Spark不要尝试将文件/文件夹名称转换为路径或某些协议并按字面意思理解它们?

0 个答案:

没有答案