我在大学里有一个项目,我需要构建一个基于用户应输入的URL(当前仅来自Banggood.com)跟踪商品价格的软件。
我刚刚开始学习有关从网站抓取信息的知识,因此我设法做到了,而我只是从头开始。我设法取消了商品标题,但是用商品价格无法做到这一点。我上传了当前代码。
我无法从Jsoup网站或Google获得正确的信息
import java.io.IOException;
import java.util.Scanner;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class ProjectLearning
{
public static void main(String args[])
{
Scanner scan = new Scanner(System.in);
print("Please enter your item URL: ");
String userUrl = scan.next();
print("Give me a sec..");
Document document;
try {
//Get Document object after parsing the html from given url.
document = Jsoup.connect(userUrl).get();
String title = document.title(); //Get title
print("Item name: " + title); //Print title.
//Get price
Elements price = document.select("div#item_now_price");
for (int i=0; i < price.size(); i++)
{
print(price.get(i).text());
}
} catch (IOException e)
{
e.printStackTrace();
}
print("There you go");
}
public static void print(String string) {
System.out.println(string);
}
}
输出:
Please enter your item URL:
https://www.banggood.com/3018-3-Axis-Mini-DIY-CNC-Router-Standard-Spindle-Motor-Wood-Engraving-Machine-Milling-Engraver-p-1274569.html?rmmds=flashdeals&cur_warehouse=CN
Give me a sec..
Item name: 3018 3 axis mini diy cnc router standard spindle motor wood engraving machine milling engraver Sale - Banggood.com
答案 0 :(得分:2)
这是因为获取的元素具有 id item_now_price
而不是 class 。
查看您输入的URL,带有价格的元素如下所示:
<div class="item_now_price" oriattrmin="0" oriattrmax="0" noworiprice="149.9" oriprice="149.9" oriprice3="146.7" oriprice10="145.16" oriprice30="143.64" oriprice100="142.11">US$149.90</div>
正确的选择器应为Elements price = document.select("div.item_now_price");
查看https://jsoup.org/cookbook/extracting-data/selector-syntax,以了解有关选择器的更多信息。
更新:
因此,我查看了您的代码,未获得价格作为输出的原因是价格是通过另一个Ajax请求加载的。不幸的是,jSoup
在这里无济于事。
有关更多信息,请查看以下答案:Fetch contents(loaded through AJAX call) of a web page