我真的尝试了很多,也搜索了很多网站...... 我试图用jsoup从一个网站解析价格,但它没有用。
我尝试的是:
try {
String str1 = "https://www.google.de/shopping/product/3996339592576509511?hl=de&q=4250155834791&oq=4250155834791&gs_l=products-cc.3...4306.7625.0.8037.13.6.0.7.0.0.60.314.6.6.0...0.0...1ac.1.LgJKDfZQvls&sa=X&ei=eeqlUY2zFNT54QSyloCoDw&ved=0CFIQgggwAA&prds=scoring:p";
doc = Jsoup.connect(str3).get();
final Elements elements = doc.select("td:lt(1)");
String price = doc.select("span").first().text();
System.out.println(price);
System.out.println("Ende");
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
目标应该是提取产品的最低价格。 示例页:
我想解析显示结果的第一行。 在这种情况下:ebay 24-trade365。
我需要文章的价格和供应商的链接。
有人可以帮忙吗?
答案 0 :(得分:0)
您可以更好地按类进行提取,也可以选择在原始文档中选择的“span”,而不是您提取的元素。尝试类似:
// get all column entries for price
final Elements elements = doc.getElementsByClass("os-price-col");
int lowest_price = Integer.MAX_VALUE;
// foreach entry
for(Element element : elements){
// get the price in text form
String text_price = element.text();
// convert to an integer
text_price = text_price.replaceAll("[^0-9.]", "");
int price = Integer.parseInt(text_price);
// check if it's the lowest
if(price < lowest_price) lowest_price = price;
}
System.out.println(lowest_price);
显然稍微更新以获得所需格式的输出。
编辑:刚刚看到您想要供应商链接。在这种情况下,我会一次提取一行,即Elements rows = doc.getElementsByClass("os-row");
然后遍历每一行并像以前一样挑选价格,但这一次
row.getElementsByClass("os-price-col").first();
如果它是最低的,你可以用
之类的东西挑选供应商网址row.getElementsByClass("os-seller-name").first().select("a").attr("href");
答案 1 :(得分:0)
如果您的表已经排序,您想要的只是第一行:
Element table=doc.getElementsByClass("os-main-table").first();
Element firstRow=table.select("tr[class=os-row").first();
Element seller=firstRow.select("td[class=os-seller-name]").first();
String sellerName=seller.text().trim();
String sellerLink=seller.getElementsByTag("a").first().attr("href");
String price=firstRow.select("td[class=os-price-col").first().getElementsByClass("os-base_price").text();
您可以在http://jsoup.org/cookbook/extracting-data/dom-navigation
找到有关Jsoup导航的教程