Question

我想从各种博客中提取数据，并且正在通过各种方式来实现这一目标：

需要用户身份验证的API

XML RPC（不知道哪一个都支持它）

RSS（同样，不确定哪些博客支持它，即使它们支持，也可以从RSS源获得多少。）

原子

我知道这不是一个与编程相关的严格问题，但我一直在问这个问题，因为对于使用什么以及哪种更好的服务存在很多困惑？

不使用API和身份验证会很好，因为您不仅需要处理各种身份验证实现，还必须处理各种API限制。

Answer 1

RSS是最早投入使用的。它有局限性。 Atom旨在替代它，克服了RSS的局限性。 Atom只是XML RPC的一种特殊形式。换句话说，XML RPC有其他用途，Atom是你想要的变体。以上所有都是一种API。理想情况下，您要做的是支持RSS和Atom。可悲的是，Atom和RSS不向后兼容。引用Wikipedia on "Atom"：

特别是，许多博客和维基站点提供他们的网络订阅源原子格式。

@ porneL的解决方案不推荐（目前）。但是，将来，HTML标记将设置为更改以改进为块提供的语义含义，例如新的<article>标记。这将是另一种解析文档的方法。它将是最多才多艺的，但在我看来它将变得可靠之前很长一段时间，因为许多（如果不是大多数）网站都会遭受“标签汤”综合症。

Answer 2

最通用“标准”是抓取和解析HTML。

wget -m http://example.com/

你究竟是如何做到的，取决于你想要完成什么，以及你想要的普遍性。

您可以使用类似于Readability使用的启发式方法来查找网站上的文章。您可以检测到特殊情况下流行的博客平台。

从任何博客获取数据的通用标准是什么？

2 个答案: