我的研究需要大量的产品信息,例如价格,类别,评级,用户评论等。他们最好来自不同的来源(亚马逊,ebay等)。我已经抓取了兆字节的HTML页面。所以现在我想知道是否有任何现有的通用(在某种程度上)解析器库可以解析来自不同电子商务网站的这些原始html页面。
我知道这个要求可能过于具体,但我首先需要一个基础,以便我可以根据具体用途进行定制。希望输入是一个描述产品的HTML文件,输出是一个关联数组,如:{'price' => $price, 'rating' => $rating, 'category' => $category, ...}.
我认为这样的包装器可能需要训练数据来进行某种学习,这是可以的。如果它是一个PHP库,那会更好,因为我的爬虫是用PHP编写的。任何线索将不胜感激。非常感谢。