我正在尝试从URL读取XML提要并将其存储在数据库中。 XML格式如下所示:
<response version="2">
<totalresults>1249943</totalresults>
<results>
<result>
<jobtitle>Call Center </jobtitle>
<company>CVS Health</company>
<city>Work at Home</city>
</result>
<result>
<jobtitle>Java Programmer</jobtitle>
<company>Jonah Group</company>
<city>Toronto</city>
</result>
</results>
</response>
我正在努力为所有工作存储职位,公司和城市。有数百万个工作岗位。这是我在C#中的代码
public override void getJobsFromSource()
{
string url = @"http://api.indeed.com/ads/apisearch?publisher=5566998848654317&v=2&q=%22%22&filter=1%22%22&limit=25";
XmlDocument doc = new XmlDocument();
doc.Load(url);
int totalResults = int.Parse(doc.SelectSingleNode("response /totalresults").InnerText);
for (int i = 0; i < totalResults; i += 25)
{
string newUrl = $@"http://api.indeed.com/ads/apisearch?publisher=5566998848654317&v=2&q=%22%22&filter=1&limit=25&start={i}";
doc.Load(newUrl);
DataSet ds = new DataSet();
XmlNodeReader xmlReader = new XmlNodeReader(doc);
while (xmlReader.ReadToFollowing("results"))
{
ds.ReadXml(xmlReader);
}
if (ds.Tables.Count > 0)
{
SqlConnection con = new SqlConnection();
con.ConnectionString = "data source=10.0.0.76;initial catalog=JobSearchDB;persist security info=True;user id=sa;password=bonddbl07;MultipleActiveResultSets=True;App=EntityFramework";
con.Open();
SqlBulkCopy sbc = new SqlBulkCopy(con);
sbc.DestinationTableName = "IndeedJob";
sbc.ColumnMappings.Clear();
sbc.ColumnMappings.Add("jobtitle", "jobtitle");
sbc.ColumnMappings.Add("company", "company");
sbc.ColumnMappings.Add("city", "city");
sbc.WriteToServer(ds.Tables[0]);
con.Close();
}
}
}
问题在于,虽然作业是独一无二的,但我的表格中有很多重复。每当我运行程序时,重复项都会随机出现。哪里出错?
答案 0 :(得分:2)
网页肯定有重复。我用以下代码验证了。该网页似乎没有格式良好的xml,因此我必须修改您的代码才能阅读网页。使用Linq我能够删除重复项。
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Windows.Forms;
using System.Xml;
using System.Xml.Schema;
namespace WindowsFormsApplication1
{
public partial class Form1 : Form
{
DataSet ds = new DataSet("Jobs");
public Form1()
{
InitializeComponent();
getJobsFromSource();
DataTable dt = ds.Tables[0];
dt = dt.AsEnumerable().GroupBy(x => x.Field <string>("jobkey")).Select(x => x.FirstOrDefault()).OrderBy(y => y.Field<string>("jobkey")).CopyToDataTable();
dataGridView1.DataSource = dt;
}
public void getJobsFromSource()
{
string url = @"http://api.indeed.com/ads/apisearch?publisher=5566998848654317&v=2&q=%22%22&filter=1%22%22&limit=25";
XmlDocument doc = new XmlDocument();
doc.Load(url);
int totalResults = int.Parse(doc.SelectSingleNode("response /totalresults").InnerText);
for (int i = 0; i < totalResults; i += 25)
{
string newUrl = @"http://api.indeed.com/ads/apisearch?publisher=5566998848654317&v=2&q=%22%22&filter=1&limit=25&start={i}";
XmlReaderSettings settings = new XmlReaderSettings();
settings.ValidationType = ValidationType.None;
settings.IgnoreWhitespace = true;
XmlReader xmlReader = XmlReader.Create(newUrl, settings);
while (!xmlReader.EOF)
{
if (xmlReader.Name != "result")
{
xmlReader.ReadToFollowing("result");
}
if(!xmlReader.EOF)
{
ds.ReadXml(xmlReader);
}
}
}
}
}
}
答案 1 :(得分:0)
您似乎假设在解析结果时结果不会改变,但情况可能并非如此。如果有新的帖子,它可能会出现在列表的开头,并将结果的其余部分推下来。这会导致页面上的最后一项在下一页上重复。
此外,您正在进行的查询似乎没有确定的订单。在您搜索时,现有结果可能会改变顺序。同样,如果项目在搜索中移动,则可能导致重复或跳过项目。