Question

public class Test {
   public static void main(String[] args) throws IOException {
     Document doc = Jsoup.connect("https://bs.to/Game-of-Thrones").get();
     Elements link = doc.select("p");

     System.out.println(link.text());
   }
}

这是我用来获取给定网站的唯一p标签元素的代码。但我得到一个文本，这不在HTML文档中。它似乎是属于一般网站的文本（它是德语的，所以我不介意发布结果文本）。

另外，如果我循环所有p元素，我会得到更多文本，不应该在文档中，而不是我正在寻找的文本。

为什么会这样？提前谢谢！

编辑：

  Document doc = Jsoup.connect("https://bs.to/andere-serien")
                  .userAgent("Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US;    rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6")
                  .referrer("http://www.google.com")
                  .get();

添加userAgent确实解决了这个问题，谢谢Sean Patrick Floyd！

Answer 1

可能是他们为不同的用户代理提供不同的内容。尝试将您的用户代理设置为真实浏览器的用户代理。

请参阅此问题寻求解决方案：
JSoup UserAgent, how to set it right?

Jsoup正在返回我在HTML文档中看不到的文本

1 个答案: