我使用Spark处理大量数据(应用程序是用Python 3.4编写的),某些文件和文件夹的名称中包含冒号 where h.PORTFOLIO_ID == Convert.ToInt16(PfID)
&& h.HLDG_DATE >=Convert.ToDateTime( DTstart)
&& h.HLDG_DATE <= Convert.ToDateTime(DTend)
,例如:
(是的,那是“文件夹名称”或http:
。最后一个导致以下错误:
File:a_picture.jpg
它是使用sc.wholeTextFiles()创建的RDD的一部分。 java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: File:a_picture.jpg
引发了类似的错误,期待某种协议。
我无法控制如何创建此数据。我可以在启动Spark应用程序之前重命名所有文件/文件夹;但是我必须运行我的应用程序,修复出现的任何错误,再试一次......你得到了图片。我想保留原来的名字。
有没有办法告诉Spark不要尝试将文件/文件夹名称转换为路径或某些协议并按字面意思理解它们?