我必须制作一个程序,允许我从互联网上发布的文章中获取一些相关信息,并附上文章的网址。更准确地说,我必须得到: - 标题 - 发布日期 - 文章的文字
我使用Java库jsoup,程序可以提取HTML,并获取这些宝贵的信息。
问题是那些文章并没有存储在一个网站上,而且每个网站都有不同的结构! 标题不是一个真正的问题,我可以使用这个代码来获得头部标题,几乎每次都是相关的:
Document doc = Jsoup.connect("http://news.com/article1").get();
String title = doc.getTitle();
http://www.huffingtonpost.com/2015/04/06/california-drinking-water_n_7011528.html
你可以看到他们的结构在抓取日期和整篇文章时完全不同。所以现在我必须让我的程序适应每个包含文章的网站,而且我浪费了很多时间!
您是否知道我如何改进该计划,以便他能够“检测”#34;文章的文字,并压制不相关的信息(如评论,相关文章......)?
编辑:我也知道C,PHP,关于Javascript的一些概念而不是Python,如果你知道比Java更好的方式来做这个工作...... ^^