使用通用解析器解析特定类别网站

时间:2017-05-24 05:44:14

标签: parsing web-scraping nutch fuzzy-logic

我想使用Apache Nutch解析几个电子商务网站产品页面。目前,我通过为每个站点使用不同的XML文件为Jsoup定义CSS选择器来使用域/网站特定的解析器。现在我必须覆盖大量的电子商务网站,并为每个网站定义单独的XML文件不是一个好主意。

我想开发一个通用解析器来解析大量电子商务网站中的特定内容。由于所有电子商务网站的结构非常接近,我计划定义一些概括提取规则以涵盖所有网站。我读到了Bolierpipe,但我认为这是专门用于文章提取的。

我怎样才能做到这一点?我是否需要开发一些机器学习算法或模糊逻辑或其他任何东西?我对机器学习或模糊逻辑的知识非常有限,但是我有兴趣了解我是否能够准确地指出我需要为这个问题做些什么?

您能否告诉我一些可能的方向/方法来实现这一目标?谢谢!

0 个答案:

没有答案