应用错误收集

我最近一直在使用Jupyter笔记本上的pyspark。我正在尝试从镶木地板文件中读取数据，以便在Neo4J中使用这些数据构建图形。我可以成功地将数据从HDFS加载到数据帧中。

当数据大小有限时，一切正常，我可以使用collect（）方法提取python列表然后循环它。当数据大小增加时，显然我得到一个“java堆大小”错误（数据框包含超过1300万和几十万行分布在五列上）。

我试过使用foreach（f）但是我得到“元组索引超出范围”。当我使用df.select（'columnName'）。show（）时，我能够查看数据;但问题是我需要提取值以便使用Neo4j会话构建图形（session.run（'Cypher query'）

我的问题是：当我有大量数据时，有没有办法循环数据框的行（因此从行中提取数据）？

P.S：我正在使用这些图书馆：findspark，pyspark，neo4j.v1