应用错误收集

我使用apache nutch抓取了10000个网页。现在我只想要那些网页中的文字。但是当我使用Nutch Readseg命令仅解析数据时，我会得到一些URL以及该网页中包含的一些文本。有没有办法消除所有这些URL并从这些网页获取唯一的纯文本？我正在使用命令 bin / nutch readseg -dump crawl / segments / 20180606182217 parsedata / -nofetch -nocontent -noparse -noparsetext -nogenerate 告诉我是否有任何其他方式通过Nutch从网页获取唯一的纯文本。 -Thanks

从Nutch中删除解析数据中的URL

0 个答案: