如何解析pyspark中的html文件并使用Beautifulsoup?

时间:2017-10-23 13:45:23

标签: html apache-spark beautifulsoup pyspark hdfs

我遇到了非常困难的情况: 我需要在 pyspark 中解析一堆html文件,但我仍然想使用 BeautifulSoup 来解析html文件。困境是:

  1. 如果我将这些html文件保存在 HDFS 中,并使用pyspark读取html文件,我只能将其读作 RDD ,但我无法将RDD作为BeautifulSoup中的输入参数;
  2. 如果我将这些html文件保存在本地,并使用BeautifulSoup来解析html文件,则不会使用pyspark的强大功能。
  3. 我该怎么办?

1 个答案:

答案 0 :(得分:0)

我建议在PySpark中编写一个UDF函数,该函数将获取此HTML列并从HTML返回提取的字段,然后针对DataFrame或RDD对其进行调用,以最适合您的问题。