在Jsoup中使用select for web scraping

时间:2013-10-17 21:16:54

标签: java html web screen-scraping jsoup

我是网络抓取的新手,我的限制是能够在IMDB中抓取页面的标题

我现在正在使用它:

String contentText = doc.select("title").first().text();

生成字符串:Thor: The Dark World (2013) - IMDb

如果有人可以帮助我,我会尝试将标题和年份作为单独的字符串:

雷神:黑暗世界”“ 2013

提前致谢!

2 个答案:

答案 0 :(得分:0)

String docTitle = doc.select("title").first().text();
String movieName = docTitle.substring(0,docTitle.indexOf("("));
int movieReleaseDate = Integer.parseInt(docTitle.substring(docTitle.indexOf("(")+1,
                                             docTitle.indexOf(")")));

答案 1 :(得分:0)

如果您查看此页面的来源,您将在文档中进一步了解以下内容:

<h1 class="header">
<span class="itemprop" itemprop="name">Thor: The Dark World</span> 
<span class="nobr">(<a href="/year/2013/?ref_=tt_ov_inf" >2013</a>)</span>    
</h1>

所以看起来你可以在没有任何进一步黑客的情况下获得所需的文本。