读取XML并将其存储在SQL Server中。得到重复

时间:2016-03-02 00:23:12

标签: c# xml

我正在尝试从URL读取XML提要并将其存储在数据库中。 XML格式如下所示:

<response version="2">
  <totalresults>1249943</totalresults>
  <results>
    <result>
      <jobtitle>Call Center </jobtitle>
      <company>CVS Health</company>
      <city>Work at Home</city>
    </result>

    <result>
      <jobtitle>Java Programmer</jobtitle>
      <company>Jonah Group</company>
      <city>Toronto</city>
    </result>
  </results>
</response>

我正在努力为所有工作存储职位,公司和城市。有数百万个工作岗位。这是我在C#中的代码

public override void getJobsFromSource()
{
    string url = @"http://api.indeed.com/ads/apisearch?publisher=5566998848654317&v=2&q=%22%22&filter=1%22%22&limit=25";
    XmlDocument doc = new XmlDocument();
    doc.Load(url);
    int totalResults = int.Parse(doc.SelectSingleNode("response /totalresults").InnerText);

    for (int i = 0; i < totalResults; i += 25)
    {
        string newUrl = $@"http://api.indeed.com/ads/apisearch?publisher=5566998848654317&v=2&q=%22%22&filter=1&limit=25&start={i}";
        doc.Load(newUrl);
        DataSet ds = new DataSet();
        XmlNodeReader xmlReader = new XmlNodeReader(doc);

        while (xmlReader.ReadToFollowing("results"))
        {
            ds.ReadXml(xmlReader);
        }

        if (ds.Tables.Count > 0)
        {
            SqlConnection con = new SqlConnection();
            con.ConnectionString = "data source=10.0.0.76;initial catalog=JobSearchDB;persist security info=True;user id=sa;password=bonddbl07;MultipleActiveResultSets=True;App=EntityFramework";
            con.Open();

            SqlBulkCopy sbc = new SqlBulkCopy(con);
            sbc.DestinationTableName = "IndeedJob";

            sbc.ColumnMappings.Clear();
            sbc.ColumnMappings.Add("jobtitle", "jobtitle");
            sbc.ColumnMappings.Add("company", "company");
            sbc.ColumnMappings.Add("city", "city");
            sbc.WriteToServer(ds.Tables[0]);
            con.Close();
        }
    }
}

问题在于,虽然作业是独一无二的,但我的表格中有很多重复。每当我运行程序时,重复项都会随机出现。哪里出错?

2 个答案:

答案 0 :(得分:2)

网页肯定有重复。我用以下代码验证了。该网页似乎没有格式良好的xml,因此我必须修改您的代码才能阅读网页。使用Linq我能够删除重复项。

using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Windows.Forms;
using System.Xml;
using System.Xml.Schema;

namespace WindowsFormsApplication1
{
    public partial class Form1 : Form
    {
        DataSet ds = new DataSet("Jobs");
        public Form1()
        {
            InitializeComponent();
            getJobsFromSource();
            DataTable dt = ds.Tables[0];
            dt = dt.AsEnumerable().GroupBy(x => x.Field <string>("jobkey")).Select(x => x.FirstOrDefault()).OrderBy(y => y.Field<string>("jobkey")).CopyToDataTable();
            dataGridView1.DataSource = dt;
        }
        public void getJobsFromSource()
{
            string url = @"http://api.indeed.com/ads/apisearch?publisher=5566998848654317&v=2&q=%22%22&filter=1%22%22&limit=25";
            XmlDocument doc = new XmlDocument();
            doc.Load(url);
            int totalResults = int.Parse(doc.SelectSingleNode("response /totalresults").InnerText);
            for (int i = 0; i < totalResults; i += 25)
            {
                string newUrl = @"http://api.indeed.com/ads/apisearch?publisher=5566998848654317&v=2&q=%22%22&filter=1&limit=25&start={i}";

                XmlReaderSettings settings = new XmlReaderSettings();
                settings.ValidationType = ValidationType.None;
                settings.IgnoreWhitespace = true;
                XmlReader xmlReader = XmlReader.Create(newUrl, settings);

                while (!xmlReader.EOF)
                {
                    if (xmlReader.Name != "result")
                    {
                        xmlReader.ReadToFollowing("result");
                    }
                    if(!xmlReader.EOF)
                    {
                        ds.ReadXml(xmlReader);
                    }
                }
            }
       }
    }
}

答案 1 :(得分:0)

您似乎假设在解析结果时结果不会改变,但情况可能并非如此。如果有新的帖子,它可能会出现在列表的开头,并将结果的其余部分推下来。这会导致页面上的最后一项在下一页上重复。

此外,您正在进行的查询似乎没有确定的订单。在您搜索时,现有结果可能会改变顺序。同样,如果项目在搜索中移动,则可能导致重复或跳过项目。