我抓了一些汽车网站并试图从这些网站中提取信息。 我需要以下信息 - Vin,里程,价格和位置。 我尝试使用正则表达式方法,但它没有扩展,因为我有大约20000个网站 提取。我想尝试提取机器学习。
某些背景信息:我下载的所有网页都有vins.I使用正则表达式来查找。 在某些网页中,价格表示为以下任何一个词 - 价格,市场价格,eprice,互联网价格,MSRP。 有一些价格文本被抚摸出来,另一个较低的价格被提供,如同折扣。我希望我的程序考虑到这一点,并忽略抚摸价格考虑其他价格。 里程表示为里程或里程。
我想过使用包装器归纳,但是如果网站更改了网站的模板,那么读取该方法将无效。 此外,这种方法需要时间来为每个网站的每个模式训练一个分类器。
那么我应该用什么样的方法或算法从网页中提取价格里程和位置。
答案 0 :(得分:1)
解析html网站有不同的方法:
您可以使用Regex
XPath也可用于选择内容
但最好的方法是使用HTML Agility Pack
HTML敏捷性示例:
var doc = new HtmlWeb().Load(url);
var comments = doc.Descendants("div")
.Where(div => div.GetAttributeValue("class", "") == "comment");
Here您可以找到通过C#解析HTML字段的不同方法的概述(包括示例)
答案 1 :(得分:0)
您可以查看HtmlAgilityPack。它允许您解析HTML并使用CSS选择器提取必要的信息。它可以使您的代码更灵活地适应网站设计和结构的变化。