我正在使用apache nutch来抓取网站。当我使用readseg
命令读取段中的内容时,我将采用以下格式:
有没有办法以纯文本格式获取网页数据? when I am using readseg command on parse text I am getting in this way
答案 0 :(得分:0)
./bin/nutch parse
命令转储(默认情况下)从URL获取的原始内容。这是传输的整个HTML内容。如果要获取文本内容,则需要等到解析内容之后。这意味着您需要执行整个爬网循环(或readseg
命令)。
检查RateLimiter limiter = RateLimiter.create(5000.0);
for (int i = 0; i < msisdnSize; i++) {limiter.acquire();//sends message}
tried this as well
limiter.acquire();
for (int i = 0; i < msisdnSize; i++) { //sends message }
命令(https://wiki.apache.org/nutch/bin/nutch_readseg)上的不同选项,如果您已经执行了解析步骤,则可能只关心已解析的内容,因此您可以避免打印所有内容其他