我正在尝试使用crawler4j
从某些网站中提取文字。但是,虽然我已经更改过滤器以允许以下列方式使用js进行扩展
private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|gif|jpg"
+ "|png|mp3|mp3|zip|gz))$");
我不知道如何将此文本存储到文件中(如果对于js文件中的文本有不同的方法,而不是常规文本)
答案 0 :(得分:2)
“访问”被调用,在页面成功处理之后 网络爬虫。然后内容包含在此对象中。
我建议您可以使用提供的方法记下已抓取的javascript内容,例如:解析二进制内容。
@Override
public void visit(Page page) {
//parse the binary content contained in the page object
}
一个例子(它与图像有关,但方法基本相同)可以在这里找到:https://github.com/yasserg/crawler4j/blob/master/src/test/java/edu/uci/ics/crawler4j/examples/imagecrawler/ImageCrawler.java