c# - 分析从网络上抓取的数据的策略

我正在开发一款应用，并希望拥有一个用户可以输入网址的功能，该应用会尝试从网页中提取某些信息。我已经决定HTML Agility Pack获取和解析HTML本身并创建一个易于遍历的DOM。我的挂断试图制定一种通用的方法来从DOM中找到我想要的信息。

例如，假设该应用程序希望用户提供某种产品页面的URL，并且我想解析一些信息，如价格，型号等。我总是可以去编写专门代码的路径。预期的主要网站（This回答了这一点），但目标不是专攻。有些项目可以非常容易识别（例如价格），但是其他一些信息可能会被更多种语言识别出来（例如SKU与部件号相比，库存号与物品号等）。

我迄今为止的一个想法是确定我想要提取的每条信息的可能位置，如果置信度低，则向用户提供“预览”，让他们批准或拒绝但我显然，我们希望最大限度地提高信心并最大限度地减少对用户的需求。

第二个想法是专注于主要网站，并回归到通用算法作为一个catchall。可能会收集匿名用户数据以了解哪些网站最受欢迎。

分析从网络上抓取的数据的策略

0 个答案: