(新手发布,道歉并在前面表示感谢!)
我的目标是构建一个小型应用程序来监控和解析一组博客的帖子,以便我们进行出站链接:
到目前为止,我的想法是使用:
- Python(使用Django或其他类似的前端)
- Feedparser阅读Feed并从帖子中提取链接
- URLparse
重大问题: 我是否遗漏了任何明显会让这种方式更容易的事情?
较小的问题(我还不知道):
- 由于即使指向同一篇文章(例如,NYT URL和tinyURL),出站链接URL也可能不同,如何检查URL以查看它是否已经在我的链接项列表中,而不仅仅是比较绝对URL? / p>
This SO post在高层次上有所帮助,但解析'blogroll'式链接列表似乎比在帖子中主动比较网址要容易得多,特别是对于可能在其中执行各种有趣事情的新闻网站网址。
答案 0 :(得分:1)
我会采用相同的设置。您可能需要lxml来解析和操作帖子内容HTML(提取标签)。