我想获取特定新闻源的xml文件,如果有任何项目将html新闻转换为xml,解析页面并将其各种特征(例如日期,作者姓名,标题,内容等)标记为单个xml或类似类型的文件。 例如,请看这个链接: http://daily.bhaskar.com/article/NAT-TOP-yeddyurappa-breaks-venkaiah-naidus-laptop-slaps-minister-reports-2318460.html 如何从此网页中提取内容,作者,日期等。或者如果我能找到这个网页的提要,我可以轻松地做到这一点。但我该如何搜索呢。
答案 0 :(得分:0)
如果它是纯粹的客户端/网络解决方案,那么您将找到js选项in a previous StackOverflow question。如果您在服务器端,则可以use WebClient/LINQ to hit the ATOM feed and parse it
答案 1 :(得分:0)
要查看某个网页是否有供稿,请扫描特定< link>的HTML。标记为 rel 和类型属性:
<link rel="alternate" type="application/rss+xml" title="Page as RSS"
href="http://example.com/page/feed">
Feed网址存储在 href 属性中。这种机制称为RSS Autodiscovery