public class Test {
public static void main(String[] args) throws IOException {
Document doc = Jsoup.connect("https://bs.to/Game-of-Thrones").get();
Elements link = doc.select("p");
System.out.println(link.text());
}
}
这是我用来获取给定网站的唯一p标签元素的代码。 但我得到一个文本,这不在HTML文档中。它似乎是属于一般网站的文本(它是德语的,所以我不介意发布结果文本)。
另外,如果我循环所有p元素,我会得到更多文本,不应该在文档中,而不是我正在寻找的文本。
为什么会这样?提前谢谢!
编辑:
Document doc = Jsoup.connect("https://bs.to/andere-serien")
.userAgent("Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6")
.referrer("http://www.google.com")
.get();
添加userAgent确实解决了这个问题,谢谢Sean Patrick Floyd!
答案 0 :(得分:0)
可能是他们为不同的用户代理提供不同的内容。尝试将您的用户代理设置为真实浏览器的用户代理。
请参阅此问题寻求解决方案:
JSoup UserAgent, how to set it right?