Question

我正在尝试使用crawler4j从某些网站中提取文字。但是，虽然我已经更改过滤器以允许以下列方式使用js进行扩展

 private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|gif|jpg"
        + "|png|mp3|mp3|zip|gz))$");

我不知道如何将此文本存储到文件中（如果对于js文件中的文本有不同的方法，而不是常规文本）

Answer 1

“访问”被调用，在页面成功处理之后网络爬虫。然后内容包含在此对象中。

我建议您可以使用提供的方法记下已抓取的javascript内容，例如：解析二进制内容。

@Override
 public void visit(Page page) {
     //parse the binary content contained in the page object
}