分析从网络上抓取的数据的策略

时间:2013-12-20 10:12:21

标签: c# algorithm parsing user-experience

我正在开发一款应用,并希望拥有一个用户可以输入网址的功能,该应用会尝试从网页中提取某些信息。我已经决定HTML Agility Pack获取和解析HTML本身并创建一个易于遍历的DOM。我的挂断试图制定一种通用的方法来从DOM中找到我想要的信息。

例如,假设该应用程序希望用户提供某种产品页面的URL,并且我想解析一些信息,如价格,型号等。我总是可以去编写专门代码的路径。预期的主要网站(This回答了这一点),但目标不是专攻。有些项目可以非常容易识别(例如价格),但是其他一些信息可能会被更多种语言识别出来(例如SKU与部件号相比,库存号与物品号等)。

我迄今为止的一个想法是确定我想要提取的每条信息的可能位置,如果置信度低,则向用户提供“预览”,让他们批准或拒绝但我显然,我们希望最大限度地提高信心并最大限度地减少对用户的需求。

第二个想法是专注于主要网站,并回归到通用算法作为一个catchall。可能会收集匿名用户数据以了解哪些网站最受欢迎。

0 个答案:

没有答案