从汽车经销商网站提取价格,里程和位置的好方法是什么?

时间:2012-05-31 11:46:18

标签: c# java machine-learning

我抓了一些汽车网站并试图从这些网站中提取信息。 我需要以下信息 - Vin,里程,价格和位置。 我尝试使用正则表达式方法,但它没有扩展,因为我有大约20000个网站 提取。我想尝试提取机器学习。

某些背景信息:我下载的所有网页都有vins.I使用正则表达式来查找。 在某些网页中,价格表示为以下任何一个词 - 价格,市场价格,eprice,互联网价格,MSRP。 有一些价格文本被抚摸出来,另一个较低的价格被提供,如同折扣。我希望我的程序考虑到这一点,并忽略抚摸价格考虑其他价格。 里程表示为里程或里程。

我想过使用包装器归纳,但是如果网站更改了网站的模板,那么读取该方法将无效。 此外,这种方法需要时间来为每个网站的每个模式训练一个分类器。

那么我应该用什么样的方法或算法从网页中提取价格里程和位置。

2 个答案:

答案 0 :(得分:1)

解析html网站有不同的方法:

  1. 您可以使用Regex

  2. XPath也可用于选择内容

  3. 但最好的方法是使用HTML Agility Pack

  4. HTML敏捷性示例:

    var doc = new HtmlWeb().Load(url);
    var comments = doc.Descendants("div")
                      .Where(div => div.GetAttributeValue("class", "") == "comment");
    

    Here您可以找到通过C#解析HTML字段的不同方法的概述(包括示例)

答案 1 :(得分:0)

您可以查看HtmlAgilityPack。它允许您解析HTML并使用CSS选择器提取必要的信息。它可以使您的代码更灵活地适应网站设计和结构的变化。