我每天早上都有大量数据在分离的XML文件中收到。我需要组合XML中的对象并从中生成报告。我希望为这个问题使用最佳解决方案。
为了证明我制作了以下例子:
有2个XML文件:
第一个是语言列表及其所在的国家/地区。第二个是产品列表及其销售的国家/地区。我生成的报告是产品名称,后跟包装所必需的语言in。
XML1:
<?xml version="1.0" encoding="utf-8"?>
<languages>
<language>
<name>English</name>
<country>8</country>
<country>9</country>
<country>3</country>
<country>11</country>
<country>12</country>
</language>
<language>
<name>French</name>
<country>3</country>
<country>6</country>
<country>7</country>
<country>13</country>
</language>
<language>
<name>Spanish</name>
<country>1</country>
<country>2</country>
<country>3</country>
</language>
</languages>
XML2:
<?xml version="1.0" encoding="utf-8"?>
<products>
<product>
<name>Screws</name>
<country>3</country>
<country>12</country>
<country>29</country>
</product>
<product>
<name>Hammers</name>
<country>1</country>
<country>13</country>
</product>
<product>
<name>Ladders</name>
<country>12</country>
<country>39</country>
<country>56</country>
</product>
<product>
<name>Wrenches</name>
<country>8</country>
<country>13</country>
<country>456</country>
</product>
<product>
<name>Levels</name>
<country>19</country>
<country>18</country>
<country>17</country>
</product>
</products>
示例程序输出:
Screws -> English, French, Spanish
Wrenches -> English, French
Hammer - > French, Spanish
Ladders-> English
目前,我将反序列化为DataSet,然后使用linq连接数据集以生成所需的报告字符串。 (如下所示 - 以命令行参数的形式传递文件名称。)
public static List<String> XMLCombine(String[] args)
{
var output = new List<String>();
var dataSets = new List<DataSet>();
//Load each of the Documents specified in the args
foreach (var s in args)
{
var path = Environment.CurrentDirectory + "\\" + s;
var tempDS = new DataSet();
try
{
tempDS.ReadXml(path);
}
catch (Exception ex)
{
//Custom Logging + Error Reporting
return null;
}
dataSets.Add(tempDS);
}
//determine order of files submitted
var productIndex = dataSets[0].DataSetName == "products" ? 0:1;
var languageIndex = dataSets[0].DataSetName == "products" ? 1:0;
var joined = from tProducts in dataSets[productIndex].Tables["product"].AsEnumerable()
join tProductCountries in dataSets[productIndex].Tables["country"].AsEnumerable() on (int)tProducts["product_id"] equals (int)tProductCountries["product_id"]
join tLanguageCountries in dataSets[languageIndex].Tables["country"].AsEnumerable() on (String)tProductCountries["country_text"] equals (String)tLanguageCountries["country_text"]
join tLanguages in dataSets[languageIndex].Tables["language"].AsEnumerable() on (int)tLanguageCountries["language_Id"] equals (int)tLanguages["language_Id"]
select new
{
Language = tLanguages["name"].ToString(),
Product = tProducts["name"].ToString()
};
var listOfProducts = joined.OrderByDescending(_ => _.Product).Select(_ => _.Product).Distinct().ToList();
foreach (var e in listOfProducts)
{
var e1 = e;
var languages = joined.Where(_ => _.Product == e1).Select(_ => _.Language).Distinct().ToList();
languages.Sort();
//Custom simple Array to text method
output.Add(String.Format("{0} {1}", e, ArrayToText(languages)));
}
return output;
}
这很好但我知道必须有更优化的解决方案来解决这个问题(特别是当XML文件在现实生活中很大时)。有没有人有替代方法(linq除外)的经验或优化当前方法的建议,这将使我更接近最佳解决方案?
非常感谢提前。
解决方案 建议解决方案的实施: Casperah使用Dictionaries处理数据集的方法为312ms。 yamen的方法使用Linq Lookup在452ms处理数据集。
答案 0 :(得分:2)
您有两个问题,内存使用情况和CPU使用率。
要限制内存使用量,可以使用XmlReader,它只读取一小块巨大的xml文件。 要限制CPU使用率,您应该在国家/地区代码上有一个索引。
我会这样做: 1.阅读所有语言并将其插入如下字典: //键是country,值是语言列表。 字典&GT; countries = new Dictionary&gt;(); 2.使用XmlReader一次读取一个产品 3.查找国家并写出语言可能使用HashSet来避免重复的语言。
那将是我的approch - 祝你好运
我创建了这个例子:
Dictionary<int, List<string>> countries = new Dictionary<int, List<string>>();
XmlReader xml = XmlReader.Create("file://D:/Development/Test/StackOverflowQuestion/StackOverflowQuestion/Countries.xml");
string language = null;
string elementName = null;
while (xml.Read())
{
switch (xml.NodeType)
{
case XmlNodeType.Element:
elementName = xml.Name;
break;
case XmlNodeType.Text:
if (elementName == "name") language = xml.Value;
if (elementName == "country")
{
int country;
if (int.TryParse(xml.Value, out country))
{
List<string> languages;
if (!countries.TryGetValue(country, out languages))
{
languages = new List<string>();
countries.Add(country, languages);
}
languages.Add(language);
}
}
break;
}
}
using (StreamWriter result = new StreamWriter(@"D:\Development\Test\StackOverflowQuestion\StackOverflowQuestion\Output.txt"))
{
xml = XmlReader.Create("file://D:/Development/Test/StackOverflowQuestion/StackOverflowQuestion/Products.xml");
string product = null;
elementName = null;
HashSet<string> languages = new HashSet<string>();
while (xml.Read())
{
switch (xml.NodeType)
{
case XmlNodeType.Element:
elementName = xml.Name;
break;
case XmlNodeType.Text:
if (elementName == "name")
{
if (product != null && languages != null)
{
result.Write(product);
result.Write(" -> ");
result.WriteLine(string.Join(", ", languages.ToArray()));
languages.Clear();
}
product = xml.Value;
}
if (elementName == "country")
{
int country;
if (int.TryParse(xml.Value, out country))
{
List<string> countryLanguages;
if (countries.TryGetValue(country, out countryLanguages))
foreach (string countryLanguage in countryLanguages) languages.Add(countryLanguage);
}
}
break;
}
}
}
}
它产生了这个例子:
Screws -> English, French, Spanish
Hammers -> Spanish, French
Ladders -> English
Wrenches -> English, French
XmlReader.Create需要一个uri,你也可以使用类似的东西:“http://www.mysite.com/countries.xml”
答案 1 :(得分:1)
好的,这仍然是LINQ to XML,但我认为它在算法方面非常有效。唯一的问题是,如果您的XML非常大(即大于RAM可以容纳)。否则,它不会比这快得多。
假设languageFile
和productFile
包含相关的XML文件。
将语言转换为查找:
var languages = (from language in XElement.Load(languageFile).Descendants("language")
from country in language.Elements("country")
select new {Language = language.Element("name").Value, Country = country.Value})
.ToLookup(l => l.Country, l => l.Language);
然后使用语言查找获取产品:
var products = from product in XElement.Load(productFile).Descendants("product")
select new {Product = product.Element("name").Value,
Languages = product.Elements("country").SelectMany(e => languages[e.Value]).Distinct().ToList()};
当然你也可以打印出来:
foreach (var product in products.Where(x => x.Languages.Count > 0))
{
Console.WriteLine("{0} -> {1}", product.Product, String.Join(", ", product.Languages));
}
返回:
Screws -> English, French, Spanish
Hammers -> Spanish, French
Ladders -> English
Wrenches -> English, French
答案 2 :(得分:1)
在您的情况下,我会将语言文件中的数据存储到字典或类似内容中,之后我会解析每个产品文件并动态生成最终的组合结果。我想这种方法会更快,你可以避免出现大量数据的内存问题。