Question

我想获取特定新闻源的xml文件，如果有任何项目将html新闻转换为xml，解析页面并将其各种特征（例如日期，作者姓名，标题，内容等）标记为单个xml或类似类型的文件。例如，请看这个链接： http://daily.bhaskar.com/article/NAT-TOP-yeddyurappa-breaks-venkaiah-naidus-laptop-slaps-minister-reports-2318460.html 如何从此网页中提取内容，作者，日期等。或者如果我能找到这个网页的提要，我可以轻松地做到这一点。但我该如何搜索呢。

Answer 1

你正在使用哪种技术？

如果它是纯粹的客户端/网络解决方案，那么您将找到js选项in a previous StackOverflow question。如果您在服务器端，则可以use WebClient/LINQ to hit the ATOM feed and parse it

Answer 2

要查看某个网页是否有供稿，请扫描特定＆lt; link＆gt;的HTML。标记为 rel 和类型属性：

<link rel="alternate" type="application/rss+xml" title="Page as RSS"
 href="http://example.com/page/feed">

Feed网址存储在 href 属性中。这种机制称为RSS Autodiscovery

如何查找特定新闻来源的Feed或XML

2 个答案: