我正在阅读文本文件并将其转换为镶木地板文件。我正在使用火花代码。但是当我尝试运行代码时,我得到了异常
org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 in stage 1.0 failed 4 times, most recent failure: Lost task 2.3 in stage 1.0 (TID 9, ukfhpdbivp12.uk.experian.local): org.apache.spark.SparkException: Task failed while writing rows.
at org.apache.spark.sql.sources.InsertIntoHadoopFsRelation.org$apache$spark$sql$sources$InsertIntoHadoopFsRelation$$writeRows$1(commands.scala:191)
at org.apache.spark.sql.sources.InsertIntoHadoopFsRelation$$anonfun$insert$1.apply(commands.scala:160)
at org.apache.spark.sql.sources.InsertIntoHadoopFsRelation$$anonfun$insert$1.apply(commands.scala:160)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:63)
at org.apache.spark.scheduler.Task.run(Task.scala:70)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:213)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.ArithmeticException: / by zero
at parquet.hadoop.InternalParquetRecordWriter.initStore(InternalParquetRecordWriter.java:101)
at parquet.hadoop.InternalParquetRecordWriter.<init>(InternalParquetRecordWriter.java:94)
at parquet.hadoop.ParquetRecordWriter.<init>(ParquetRecordWriter.java:64)
at parquet.hadoop.ParquetOutputFormat.getRecordWriter(ParquetOutputFormat.java:282)
at parquet.hadoop.ParquetOutputFormat.getRecordWriter(ParquetOutputFormat.java:252)
at org.apache.spark.sql.parquet.ParquetOutputWriter.<init>(newParquet.scala:83)
at org.apache.spark.sql.parquet.ParquetRelation2$$anon$4.newInstance(newParquet.scala:229)
at org.apache.spark.sql.sources.DefaultWriterContainer.initWriters(commands.scala:470)
at org.apache.spark.sql.sources.BaseWriterContainer.executorSideSetup(commands.scala:360)
at org.apache.spark.sql.sources.InsertIntoHadoopFsRelation.org$apache$spark$sql$sources$InsertIntoHadoopFsRelation$$writeRows$1(commands.scala:172)
... 8 more
我正在尝试以下列方式编写数据框:
dataframe.write().parquet(Path)
非常感谢任何帮助。
答案 0 :(得分:2)
另一个可能的原因是你达到了s3请求率限制。如果仔细查看日志,可能会看到类似这样的内容
AmazonS3Exception: Please reduce your request rate.
虽然Spark UI会说
Task failed while writing rows
我怀疑你遇到问题的原因,但如果你正在经营一项高度密集的工作,这可能是一个原因。所以我只是为了答案的完整性而加入。
答案 1 :(得分:1)
我发现禁用推测会阻止此错误发生。我不太清楚为什么。在编写镶木地板行时,似乎投机性和非推测性任务相互冲突。
sparkConf.set("spark.speculation","false")
答案 2 :(得分:0)
这就是拥有所有源代码帮助的地方:将堆栈跟踪粘贴到IDE中,该IDE可以从堆栈跟踪转换为代码行,并查看其内容。这可能只是一些init / config问题
答案 3 :(得分:0)
如果它仍然是相关的,我对这个问题的经验是我没有开始hadoop。如果你在它上面运行spark,可能值得启动hadoop并再次检查。
答案 4 :(得分:0)
就我而言,当我尝试覆盖属于另一个用户的hdfs目录时,看到了此错误。删除目录可以让我的进程从头开始写它。因此,我想在用户对hdfs权限的方向上进行更多挖掘是合适的。