我正在玩杰里科的HTML解析器,但我找不到信息,或者更确切地说是如何设置或更改用户代理的示例。我找到了类Config,但不知道如何使用它,还有其他人可以给我一个例子吗?
我设法解析了我想要的网站,但我不确定Jericho的解析器是否添加了用户代理。您可能知道我想要一个合适的用户代理来阻止网站禁止我访问其内容。
谢谢。
答案 0 :(得分:3)
继上述评论之后,请确保始终遵守robots.txt。除此之外,你想要的代码应该是这样的。
import java.net.URL;
import java.net.URLConnection;
import java.util.List;
import net.htmlparser.jericho.Element;
import net.htmlparser.jericho.Source;
public class HtmlFun {
public static void main(String[] args) throws Exception {
URL url = new URL("http://www.google.com");
URLConnection conn = url.openConnection();
conn.setConnectTimeout(1000);
conn.setReadTimeout(1000);
conn.setRequestProperty("User-Agent", "Mozilla");
Source source = new Source(conn);
List elems = source.getAllElements();
for(Element elem : elems) {
System.out.println(elem);
}
}
}
由于防火墙问题,无法从工作中运行它,但我认为这应该适合您。如果没有,类似的东西就可以解决问题。