应用错误收集

将从Common Crawl下载的warc.gz文件转换为RDD

时间：2017-08-23 12:33:41

标签： apache-spark pyspark rdd common-crawl warc

我从常规抓取中下载了warc.gz文件，我必须使用spark处理它。如何将文件转换为RDD？sc.textFile("filepath")似乎没有帮助。打印rdd.take(1)时，它会给我[u'WARC/1.0']，但它应该给我一整条记录。如何将文件转换为可处理的rdd？谢谢！

1 个答案:

答案 0 :(得分：1)

你得到的是因为RDD支持非结构化数据。如果您将文件作为RDD读取，则warc结构将消失。因此，当你执行rdd.take（1）时，它实质上意味着RDD的第一行。因此，结果[u＆＃39; WARC / 1.0＆＃39;]。如果要处理warc记录。我不推荐使用spark，因为还支持Warc文件。使用python warc库可以帮助你解决这个问题，因为它可以保留丰富的WARC数据的结构。

从WARC.gz文件中提取标头
下载通用爬网完整索引文件
将RDD [org.apache.spark.sql.Row]转换为RDD [org.apache.spark.mllib.linalg.Vector]
将字符串RDD转换为Int RDD
将RDD与Array转换为DataFrame
使用https.request将下载的文件转换为base64
无法从通用抓取抓取的warc文件中找到网址
将从Common Crawl下载的warc.gz文件转换为RDD
常见爬网的warc.gz文件的两个记录之间的分隔符
常见爬网 - 获取WARC文件

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？