从任何博客获取数据的通用标准是什么?

时间:2013-03-15 08:06:52

标签: rss xml-rpc atom-feed

我想从各种博客中提取数据,并且正在通过各种方式来实现这一目标:

  
      
  1. 需要用户身份验证的API
  2.   
  3. XML RPC(不知道哪一个都支持它)
  4.   
  5. RSS(同样,不确定哪些博客支持它,即使它们支持,也可以从RSS源获得多少。)
  6.   
  7. 原子
  8.   

我知道这不是一个与编程相关的严格问题,但我一直在问这个问题,因为对于使用什么以及哪种更好的服务存在很多困惑?

不使用API​​和身份验证会很好,因为您不仅需要处理各种身份验证实现,还必须处理各种API限制。

2 个答案:

答案 0 :(得分:2)

RSS是最早投入使用的。它有局限性。 Atom旨在替代它,克服了RSS的局限性。 Atom只是XML RPC的一种特殊形式。换句话说,XML RPC有其他用途,Atom是你想要的变体。以上所有都是一种API。理想情况下,您要做的是支持RSS和Atom。可悲的是,Atom和RSS不向后兼容。引用Wikipedia on "Atom"

  

特别是,许多博客和维基站点提供他们的网络订阅源   原子格式。

@ porneL的解决方案不推荐(目前)。但是,将来,HTML标记将设置为更改以改进为块提供的语义含义,例如新的<article>标记。这将是另一种解析文档的方法。它将是最多才多艺的,但在我看来它将变得可靠之前很长一段时间,因为许多(如果不是大多数)网站都会遭受“标签汤”综合症。

答案 1 :(得分:1)

通用“标准”是抓取和解析HTML。

wget -m http://example.com/

你究竟是如何做到的,取决于你想要完成什么,以及你想要的普遍性。

您可以使用类似于Readability使用的启发式方法来查找网站上的文章。您可以检测到特殊情况下流行的博客平台。