如何查找特定新闻来源的Feed或XML

时间:2011-08-02 06:29:57

标签: rss html-content-extraction

我想获取特定新闻源的xml文件,如果有任何项目将html新闻转换为xml,解析页面并将其各种特征(例如日期,作者姓名,标题,内容等)标记为单个xml或类似类型的文件。 例如,请看这个链接: http://daily.bhaskar.com/article/NAT-TOP-yeddyurappa-breaks-venkaiah-naidus-laptop-slaps-minister-reports-2318460.html 如何从此网页中提取内容,作者,日期等。或者如果我能找到这个网页的提要,我可以轻松地做到这一点。但我该如何搜索呢。

2 个答案:

答案 0 :(得分:0)

你正在使用哪种技术?

如果它是纯粹的客户端/网络解决方案,那么您将找到js选项in a previous StackOverflow question。如果您在服务器端,则可以use WebClient/LINQ to hit the ATOM feed and parse it

答案 1 :(得分:0)

要查看某个网页是否有供稿,请扫描特定< link>的HTML。标记为 rel 类型属性:

<link rel="alternate" type="application/rss+xml" title="Page as RSS"
 href="http://example.com/page/feed">

Feed网址存储在 href 属性中。这种机制称为RSS Autodiscovery