应用错误收集

我的研究需要大量的产品信息，例如价格，类别，评级，用户评论等。他们最好来自不同的来源（亚马逊，ebay等）。我已经抓取了兆字节的HTML页面。所以现在我想知道是否有任何现有的通用（在某种程度上）解析器库可以解析来自不同电子商务网站的这些原始html页面。

我知道这个要求可能过于具体，但我首先需要一个基础，以便我可以根据具体用途进行定制。希望输入是一个描述产品的HTML文件，输出是一个关联数组，如：{'price' => $price, 'rating' => $rating, 'category' => $category, ...}.我认为这样的包装器可能需要训练数据来进行某种学习，这是可以的。如果它是一个PHP库，那会更好，因为我的爬虫是用PHP编写的。任何线索将不胜感激。非常感谢。

电子商务产品HTML页面包装器

0 个答案: