应用错误收集

如何解析pyspark中的html文件并使用Beautifulsoup？

时间：2017-10-23 13:45:23

标签： html apache-spark beautifulsoup pyspark hdfs

我遇到了非常困难的情况：我需要在 pyspark 中解析一堆html文件，但我仍然想使用 BeautifulSoup 来解析html文件。困境是：

如果我将这些html文件保存在 HDFS 中，并使用pyspark读取html文件，我只能将其读作 RDD ，但我无法将RDD作为BeautifulSoup中的输入参数;
如果我将这些html文件保存在本地，并使用BeautifulSoup来解析html文件，则不会使用pyspark的强大功能。

我该怎么办？

1 个答案:

答案 0 :(得分：0)

我建议在PySpark中编写一个UDF函数，该函数将获取此HTML列并从HTML返回提取的字段，然后针对DataFrame或RDD对其进行调用，以最适合您的问题。