标签: html apache-spark beautifulsoup pyspark hdfs
我遇到了非常困难的情况: 我需要在 pyspark 中解析一堆html文件,但我仍然想使用 BeautifulSoup 来解析html文件。困境是:
我该怎么办?
答案 0 :(得分:0)
我建议在PySpark中编写一个UDF函数,该函数将获取此HTML列并从HTML返回提取的字段,然后针对DataFrame或RDD对其进行调用,以最适合您的问题。