解析常见链接的博客文章

时间:2011-09-11 22:57:23

标签: python xml url rss blogs

(新手发布,道歉并在前面表示感谢!)

我的目标是构建一个小型应用程序来监控和解析一组博客的帖子,以便我们进行出站链接:

  1. 在一个框架中显示博客中的顶级链接文章;和,
  2. 对于给定的链接文章,显示链接到它的帖子(在我的博客圈中)。
  3. 到目前为止,我的想法是使用:
    - Python(使用Django或其他类似的前端)
    - Feedparser阅读Feed并从帖子中提取链接 - URLparse

    重大问题: 我是否遗漏了任何明显会让这种方式更容易的事情?

    较小的问题(我还不知道):
    - 由于即使指向同一篇文章(例如,NYT URL和tinyURL),出站链接URL也可能不同,如何检查URL以查看它是否已经在我的链接项列表中,而不仅仅是比较绝对URL? / p>

    This SO post在高层次上有所帮助,但解析'blogroll'式链接列表似乎比在帖子中主动比较网址要容易得多,特别是对于可能在其中执行各种有趣事情的新闻网站网址。

1 个答案:

答案 0 :(得分:1)

我会采用相同的设置。您可能需要lxml来解析和操作帖子内容HTML(提取标签)。