我有一个csv文件,它具有以下布局:
Website Text
A B
在第一列中有一个网站,第二列是我从中删除的文本。 这是一个1GB大小的文件。
我需要以某种方式查看文本的每一行,与网站无关,并将其合并到一个单元格中。例如:
Website Text
A Mary
B had a little lamb
会变成:
Text
Mary had a little lamb
我尝试了很多东西,大熊猫不会工作,因为文件太大而无法一次性存储在内存中,而且我不知道如何使用pyspark / spark来完成它。
感谢您的帮助!