我试图从该页面获取信息:http://www.wowhead.com/transmog-sets?filter=3;5;0#transmog-sets
检查元素时,我已尝试过这段代码,但每次在任何节点上都会返回null:
public class ItemSetsTransmog
{
public string ItemSetName { get; set; }
public string ItemSetId { get; set; }
}
public partial class Fmain : Form
{
DataTable Table;
HtmlWeb web = new HtmlWeb();
public Fmain()
{
InitializeComponent();
initializeItemSetTransmogTable();
}
private async void Fmain_Load(object sender, EventArgs e)
{
int PageNum = 0;
var itemsets = await ItemSetTransmogFromPage(0);
while (itemsets.Count > 0)
{
foreach (var itemset in itemsets)
Table.Rows.Add(itemset.ItemSetName, itemset.ItemSetId);
itemsets = await ItemSetTransmogFromPage(PageNum++);
}
}
private async Task<List<ItemSetsTransmog>> ItemSetTransmogFromPage(int PageNum)
{
String url = "http://www.wowhead.com/transmog-sets?filter=3;5;0#transmog-sets";
if (PageNum != 0)
url = "http://www.wowhead.com/transmog-sets?filter=3;5;0#transmog-sets:75+" + PageNum.ToString();
var doc = await Task.Factory.StartNew(() => web.Load(url));
var NameNodes = doc.DocumentNode.SelectNodes("//*[@id=\"tab - transmog - sets\"]//div//table//tr//td//div//a");
var IdNodes = doc.DocumentNode.SelectNodes("//*[@id=\"tab - transmog - sets\"]//div//table//tr//td//div//a");
// if these are null it means the name/score nodes couldn't be found on the html page
if (NameNodes == null || IdNodes == null)
return new List<ItemSetsTransmog>();
var ItemSetNames = NameNodes.Select(node => node.InnerText);
var ItemSetIds = IdNodes.Select(node => node.InnerText);
return ItemSetNames.Zip(ItemSetIds, (name, id) => new ItemSetsTransmog() { ItemSetName = name, ItemSetId = id }).ToList();
}
private void initializeItemSetTransmogTable()
{
Table = new DataTable("ItemSetTransmogTable");
Table.Columns.Add("ItemSetName", typeof(string));
Table.Columns.Add("ItemSetId", typeof(string));
ItemSetTransmogDataView.DataSource = Table;
}
}
}
为什么我的脚本不会加载任何这些节点?我该如何解决?
答案 0 :(得分:1)
您的代码不会加载这些节点,因为HTML Agility Pack撤回的HTML中不存在这些节点。这可能是因为您显示的大部分标记都是由JavaScript生成的。只需尝试检查ItemSetTransmogFromPage()方法中的doc.ParsedText属性。
Html Agility Pack是一个HTTP客户端/解析器,它不会运行脚本。如果您真的需要使用此过程获取数据,那么您将需要使用&#34;无头浏览器&#34;例如Optimus来检索页面(警告:我没有使用过这个库,虽然看起来存在一个nuget包),然后可能使用HTML Agility Pack来解析/查询标记。
另一种选择可能是尝试解析此页面上存在的JSON(如果这为您提供了所需的数据,尽管这似乎不太可能)。
小记 - 我认为xpath中的id应该是&#34; tab-transmog-sets&#34;而不是&#34; tab - transmog - sets&#34;