Question

我必须制作一个程序，允许我从互联网上发布的文章中获取一些相关信息，并附上文章的网址。更准确地说，我必须得到： - 标题 - 发布日期 - 文章的文字

我使用Java库jsoup，程序可以提取HTML，并获取这些宝贵的信息。

问题是那些文章并没有存储在一个网站上，而且每个网站都有不同的结构！标题不是一个真正的问题，我可以使用这个代码来获得头部标题，几乎每次都是相关的：

Document doc = Jsoup.connect("http://news.com/article1").get();
String title = doc.getTitle();

你可以看到他们的结构在抓取日期和整篇文章时完全不同。所以现在我必须让我的程序适应每个包含文章的网站，而且我浪费了很多时间！

您是否知道我如何改进该计划，以便他能够“检测”＃34;文章的文字，并压制不相关的信息（如评论，相关文章......）？

编辑：我也知道C，PHP，关于Javascript的一些概念而不是Python，如果你知道比Java更好的方式来做这个工作...... ^^