获取XML网页到列表中的所有特定标记(C#)

时间:2015-12-24 07:13:15

标签: c# xml linq

我正在尝试构建一个从站点地图中提取所有位置元素的函数。

我正在尝试阅读的xml文档的这个网页

<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="http://www.topquadcoptersreviews.com/wp-content/plugins/google-sitemap-generator/sitemap.xsl"?><!-- sitemap-generator-url="http://www.arnebrachhold.de" sitemap-generator-version="4.0.8" -->
<!-- generated-on="December 24, 2015 6:26 am" -->
<sitemapindex xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <sitemap>
        <loc>http://www.topquadcoptersreviews.com/sitemap-misc.xml</loc>
        <lastmod>2015-12-09T03:05:04+00:00</lastmod>
    </sitemap>
    <sitemap>
        <loc>http://www.topquadcoptersreviews.com/sitemap-pt-post-2015-12.xml</loc>
        <lastmod>2015-12-09T03:05:04+00:00</lastmod>
    </sitemap>
    <sitemap>
        <loc>http://www.topquadcoptersreviews.com/sitemap-pt-post-2015-11.xml</loc>
        <lastmod>2015-11-28T09:52:03+00:00</lastmod>
    </sitemap>
    <sitemap>
        <loc>http://www.topquadcoptersreviews.com/sitemap-pt-post-2015-10.xml</loc>
        <lastmod>2015-10-23T11:39:16+00:00</lastmod>
    </sitemap>
    <sitemap>
        <loc>http://www.topquadcoptersreviews.com/sitemap-pt-post-2015-09.xml</loc>
        <lastmod>2015-09-26T11:24:49+00:00</lastmod>
    </sitemap>
    <sitemap>
        <loc>http://www.topquadcoptersreviews.com/sitemap-pt-post-2015-08.xml</loc>
        <lastmod>2015-08-31T12:03:10+00:00</lastmod>
    </sitemap>
    <sitemap>
        <loc>http://www.topquadcoptersreviews.com/sitemap-pt-post-2015-07.xml</loc>
        <lastmod>2015-08-25T11:56:33+00:00</lastmod>
    </sitemap>
    <sitemap>
        <loc>http://www.topquadcoptersreviews.com/sitemap-pt-post-2015-05.xml</loc>
        <lastmod>2015-12-05T06:59:11+00:00</lastmod>
    </sitemap>
    <sitemap>
        <loc>http://www.topquadcoptersreviews.com/sitemap-pt-page-2015-10.xml</loc>
        <lastmod>2015-10-31T11:06:37+00:00</lastmod>
    </sitemap>
    <sitemap>
        <loc>http://www.topquadcoptersreviews.com/sitemap-pt-page-2015-09.xml</loc>
        <lastmod>2015-09-24T12:01:22+00:00</lastmod>
    </sitemap>
    <sitemap>
        <loc>http://www.topquadcoptersreviews.com/sitemap-pt-page-2015-05.xml</loc>
        <lastmod>2015-11-16T04:25:02+00:00</lastmod>
    </sitemap>
</sitemapindex><!-- Request ID: 3a7e86d4b9d274d0b89130cb07553a8f; Queries for sitemap: 6; Total queries: 49; Seconds: 0.01; Memory for sitemap: 0.25MB; Total memory: 40.25MB -->

我正在尝试将所有“loc”元素放入列表中,到目前为止,我尝试访问元素但不工作,目前我已成功创建XML Document并能够访问它。

当前代码

string url = "http://www.topquadcoptersreviews.com/sitemap.xml";
                    XmlDocument xmlDoc = new XmlDocument();
                    xmlDoc.Load(url);

3 个答案:

答案 0 :(得分:2)

//首先加载xml:

var data = XElement.Parse(xmlResult);
 string ns ="http://www.sitemaps.org/schemas/sitemap/0.9";
 var m_content = data.Descendants(ns + "sitemapindex ");
 var loc = m_content.Select(p => p.Element(ns + "loc"));

var locs =     m_content.Elements(ns + "loc");

//现在应该在loc

中有位置

//可以帮助你..

答案 1 :(得分:2)

诀窍是使用命名空间管理器并在XPath表达式前加上默认命名空间:

string url = "http://www.topquadcoptersreviews.com/sitemap.xml";
var xmlDoc = new XmlDocument();
var xmlns  = new XmlNamespaceManager(xmlDoc.NameTable);
    xmlns.AddNamespace("default", "http://www.sitemaps.org/schemas/sitemap/0.9");
xmlDoc.Load(url);

var locs = xmlDoc.SelectNodes("//default:loc", xmlns)
    .OfType<XmlElement>()
    .Select(element => element.InnerText)
    .ToList();

答案 2 :(得分:1)

这将在LINQ to XML中执行:

XDocument doc = XDocument.Load("data.xml");
XNamespace ns = "http://www.sitemaps.org/schemas/sitemap/0.9";

List<string> locs = doc.Descendants(ns + "loc").Select(e => e.Value).ToList();