这是我的代码:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
public class PageReaderBisnis {
public void start(){
try {
String url = "http://finansial.bisnis.com/";
print("Fetching %s...", url);
Document doc = Jsoup.connect(url).get();
Elements select = doc.select("div.post-category-item");
Elements tautan = select.select("h2>a");
print("\nLinks: (%d)", tautan.size());
for (Element link: tautan){
String t = link.attr("abs:href");
print(" * a: <%s>", t);
}
print("\nNama: (%d)", tautan.size());
for (Element link: tautan){
String t = link.text();
print(" * a: %s", t);
}
}
catch (IOException ex) {
System.out.println("No connection");
}
}
private static void print(String msg, Object... args){
System.out.println(String.format(msg, args));
}
private static String trim(String s, int width){
if(s.length() > width){
return s.substring(0, width-1) + ".";
}
else return s;
}
}
该网站是finansial.bisnis.com
我希望打印出来:
链接:(10)
...
Nama:(10)
我正在编写代码并希望结果能够按照我的要求出现,但它似乎并没有给出正确的结果。我在这里做错了什么?
答案 0 :(得分:0)
试试这个
Document doc = Jsoup.connect(url)
.userAgent("Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:25.0) Gecko/20100101 Firefox/25.0")
.referrer("http://www.google.com")
.get();
服务器要么不允许机器人,要么它会搞乱,并向您显示移动版本。