从Nutch中删除解析数据中的URL

时间:2018-06-07 13:16:41

标签: hadoop pyspark web-crawler nutch

我使用apache nutch抓取了10000个网页。现在我只想要那些网页中的文字。但是当我使用Nutch Readseg命令仅解析数据时,我会得到一些URL以及该网页中包含的一些文本。有没有办法消除所有这些URL并从这些网页获取唯一的纯文本? 我正在使用命令 bin / nutch readseg -dump crawl / segments / 20180606182217 parsedata / -nofetch -nocontent -noparse -noparsetext -nogenerate 告诉我是否有任何其他方式通过Nutch从网页获取唯一的纯文本。 -Thanks

0 个答案:

没有答案