如何提取HTML属性的内容

时间:2015-06-17 12:59:39

标签: java html parsing web-crawler jsoup

我正在开发一个包含Web爬虫解析器的Java程序。 我使用Jsoup从网页下载HTML源代码,我想提取src' s和alt' s以便将它们写入CSV文件。 问题是,我无法找到删除alt=""src=""的方法。 我不想在CSV文件中使用它们,我只想要图片网址及其说明。有没有人有想法? 这是我的工作:

Document html = Jsoup.connect(url).get();
Elements titres = html.select("img[src$=.jpg], div[class$=price] ");

1 个答案:

答案 0 :(得分:0)

感谢您的回答,但由于这是一个专业项目,我已经找到了另一种方法。 对于那些想知道我是怎么做的人

String image = titres.get(i).attr("src");