我正在研究一个过程,以分析抓取数据的质量以及数据随时间的趋势。这需要分析许多文本字段。文本字段基本上是blob,其中大部分由来自各种来源的自由格式数据组成。例如,包含车辆信息的字段,
Hyundai Sonata 1999
1 Car, Chev; Value:2221.99
2012 Toyot Prius **..
Car Worth $1000
1995 Nissan
;;;.;.;;;;;;
$1000 VIN 1ZA334AXXVB1FUN1
One car estimated value of $10,000.00
从以上示例中,您可以看到数据可以通过多种方式获得。以上是更极端的示例,通常数据将包括品牌,型号,年份和价值。但是,可能会严重刮取数据或遗漏数据。
我正在尝试寻找一种方法来简化对这些字段的分析。除了标准规范化过程以及包含质量的自定义过程之外,我真的不知道有什么好方法。如果我想根据某些数据的存在来评估质量,例如制造,型号,年份,VIN,里程和价值,那么也许有一种ML技术可以使这一点变得容易,或者我只需要创建一个字典即可汽车信息并使用正则表达式和模糊匹配?我可以根据重要性对每个属性进行加权。
由此产生的平均质量将导致类似的结果,然后进行进一步的调查以确定多年来质量为何更好/更差,
2010 = 35%
2011 = 50%
2012 = 60%
2013 = 40%
这是正确的方法还是还有其他选择?由于我需要在数十个(可能是数百个)字段中执行此操作,因此越轻松越好。