使用HTML AgilityPack解析节点

时间:2017-10-30 17:30:57

标签: c# xpath html-parsing html-agility-pack

我试图从该页面获取信息:http://www.wowhead.com/transmog-sets?filter=3;5;0#transmog-sets

检查元素时,

行看起来像这样: InspectElement

我已尝试过这段代码,但每次在任何节点上都会返回null:

public class ItemSetsTransmog
                {
                    public string ItemSetName { get; set; }
                    public string ItemSetId { get; set; }
                }

                public partial class Fmain : Form
                {
                    DataTable Table;
                    HtmlWeb web = new HtmlWeb();

                    public Fmain()
                    {
                        InitializeComponent();
                        initializeItemSetTransmogTable();

                    }

                    private async void Fmain_Load(object sender, EventArgs e)
                    {
                        int PageNum = 0;
                        var itemsets = await ItemSetTransmogFromPage(0);
                        while (itemsets.Count > 0)
                        {
                            foreach (var itemset in itemsets)
                                Table.Rows.Add(itemset.ItemSetName, itemset.ItemSetId);

                            itemsets = await ItemSetTransmogFromPage(PageNum++);
                        }

                    }

                    private async Task<List<ItemSetsTransmog>> ItemSetTransmogFromPage(int PageNum)
                    {
                        String url = "http://www.wowhead.com/transmog-sets?filter=3;5;0#transmog-sets";
                        if (PageNum != 0)
                            url = "http://www.wowhead.com/transmog-sets?filter=3;5;0#transmog-sets:75+" + PageNum.ToString();

                        var doc = await Task.Factory.StartNew(() => web.Load(url));
                        var NameNodes = doc.DocumentNode.SelectNodes("//*[@id=\"tab - transmog - sets\"]//div//table//tr//td//div//a");
                        var IdNodes = doc.DocumentNode.SelectNodes("//*[@id=\"tab - transmog - sets\"]//div//table//tr//td//div//a");

                        // if these are null it means the name/score nodes couldn't be found on the html page
                        if (NameNodes == null || IdNodes == null)
                            return new List<ItemSetsTransmog>();

                        var ItemSetNames = NameNodes.Select(node => node.InnerText);
                        var ItemSetIds = IdNodes.Select(node => node.InnerText);

                        return ItemSetNames.Zip(ItemSetIds, (name, id) => new ItemSetsTransmog() { ItemSetName = name, ItemSetId = id }).ToList();
                    }

                    private void initializeItemSetTransmogTable()
                    {
                        Table = new DataTable("ItemSetTransmogTable");
                        Table.Columns.Add("ItemSetName", typeof(string));
                        Table.Columns.Add("ItemSetId", typeof(string));

                        ItemSetTransmogDataView.DataSource = Table;
                    }
                }
            }

为什么我的脚本不会加载任何这些节点?我该如何解决?

1 个答案:

答案 0 :(得分:1)

您的代码不会加载这些节点,因为HTML Agility Pack撤回的HTML中不存在这些节点。这可能是因为您显示的大部分标记都是由JavaScript生成的。只需尝试检查ItemSetTransmogFromPage()方法中的doc.ParsedText属性。

Html Agility Pack是一个HTTP客户端/解析器,它不会运行脚本。如果您真的需要使用此过程获取数据,那么您将需要使用&#34;无头浏览器&#34;例如Optimus来检索页面(警告:我没有使用过这个库,虽然看起来存在一个nuget包),然后可能使用HTML Agility Pack来解析/查询标记。

另一种选择可能是尝试解析此页面上存在的JSON(如果这为您提供了所需的数据,尽管这似乎不太可能)。

小记 - 我认为xpath中的id应该是&#34; tab-transmog-sets&#34;而不是&#34; tab - transmog - sets&#34;