从网页中选择相关信息?

时间:2015-04-08 13:45:51

标签: java html jsoup article

我必须制作一个程序,允许我从互联网上发布的文章中获取一些相关信息,并附上文章的网址。更准确地说,我必须得到: - 标题 - 发布日期 - 文章的文字

我使用Java库jsoup,程序可以提取HTML,并获取这些宝贵的信息。

问题是那些文章并没有存储在一个网站上,而且每个网站都有不同的结构! 标题不是一个真正的问题,我可以使用这个代码来获得头部标题,几乎每次都是相关的:

Document doc = Jsoup.connect("http://news.com/article1").get();
String title = doc.getTitle();

以下是2篇文章的示例: http://www.telegraph.co.uk/finance/economics/11520066/Markets-spooked-by-threat-of-Labour-SNP-coalition-economists-warn.html

http://www.huffingtonpost.com/2015/04/06/california-drinking-water_n_7011528.html

你可以看到他们的结构在抓取日期和整篇文章时完全不同。所以现在我必须让我的程序适应每个包含文章的网站,而且我浪费了很多时间!

您是否知道我如何改进该计划,以便他能够“检测”#34;文章的文字,并压制不相关的信息(如评论,相关文章......)?

编辑:我也知道C,PHP,关于Javascript的一些概念而不是Python,如果你知道比Java更好的方式来做这个工作...... ^^

0 个答案:

没有答案