使用C#从网页抓取JSON

时间:2017-07-04 05:15:28

标签: c# html-agility-pack

这里是C#的新手,也是运行异步任务的新手。

我试图从网站上搜集一些音乐专辑信息。网页的搜索以纯文本形式生成JSON对象,但我似乎无法访问任何DOM信息。这是我尝试过的(使用HtmlAgilityPack):

using HtmlAgilityPack;
using System;
using System.Threading.Tasks;
using System.Windows.Forms;

namespace WindowsFormsApp1 {
public partial class Form1 : Form {
    public Form1() {
        InitializeComponent();
    }

    public async Task<String> AlbumScraper(string albumname) {

        HtmlWeb web = new HtmlWeb();

        string albumurl = Uri.EscapeUriString("https://www.metal-archives.com/search/ajax-album-search/?field=title&query=" + albumname);
        Console.Write(albumurl);
        var albumdoc = await Task.Factory.StartNew(() => web.Load(albumurl));
        string albumjson = "";

        if (albumdoc.DocumentNode != null) {
            albumjson = albumdoc.DocumentNode.InnerText;
        }

        return albumjson;
    }

    private async void Form1_Load(object sender, EventArgs e) {
        string rawtext = await AlbumScraper("rust+in+peace");
        Console.Write(rawtext);
    }
}
}

如何获取生成的JSON文本?当我加载&#34; alburl&#34;时,我可以清楚地看到它。网址...

3 个答案:

答案 0 :(得分:3)

您可以通过在线工具http://json2csharp.com/生成它 然后将生成的类添加到代码中

public class AlbumSearchResponse
    {
        public string error { get; set; }
        public int iTotalRecords { get; set; }
        public int iTotalDisplayRecords { get; set; }
        public int sEcho { get; set; }
        public List<List<string>> aaData { get; set; }
    }

将您的回复文字转换为课程

var data = JsonConvert.DeserializeObject<AlbumSearchResponse>(response);
        foreach (var item in data.aaData)
        {
            //do whatever your want with data
        }

您还需要从nuget添加newtonsoft json包以使JsonConvert正常工作

答案 1 :(得分:1)

首先,您不需要HtmlAgilityPack。

其次,尝试:

using Newtonsoft.Json.Linq;

string albumurl = Uri.EscapeUriString("https://www.metal-archives.com/search/ajax-album-search/?field=title&query=rust+in+peace");
string doc = "";
using (System.Net.WebClient client = new System.Net.WebClient()) // WebClient class inherits IDisposable
{
    doc = client.DownloadString(albumurl);
}

然后你可以反序列化它(@itikhomi)

AlbumSearchResponse data = JsonConvert.DeserializeObject<AlbumSearchResponse>(doc);

你也可以手动解析它

JObject json = JObject.Parse(doc);
string error= Convert.ToString(json["error"]);
. . .
string aaData= Convert.ToString(json["aaData"]);
JArray arr = JArray.Parse(aaData);
foreach(JToken token in arr)
{
    string[] strarr = token.ToObject<string[]>();
}

答案 2 :(得分:0)

金属存档的相册列表是通过API提供的,但是相册的详细信息直接放在DOM中。有一个用于金属档案的.NET标准包装器库:MetalArchivesNET

目前,它仅允许您按名称查找乐队/专辑/歌曲,但将来它将能够通过url获取内容