我想了解网络上各种产品和内容的评论,我该怎么做。有一家名为searchreviews.com的公司,他们这样做,我想知道他们是如何做到的。
答案 0 :(得分:3)
他们获取页面的HTML,然后解析它,定位他们需要的任何信息。
这真的非常糟糕,因为它取决于你正在抓取的网站的DOM,它可以随时以微不足道和复杂的方式改变。我曾经与那些已经(合法地)刮掉各种类型网站的公司合作过,这很糟糕。
答案 1 :(得分:1)
机械化或watir或rautomation是可能对你有帮助的相关宝石。
答案 2 :(得分:0)
我经常为不同的客户做这件事,大多数时候,收集评论的网站结构很好,所以抓不是太难。以Yelp.com为例。我在屏幕抓取器中构建了一个例程,用于搜索客户区域中的邮政编码,使用过滤器来查看所需的业务类型,并列出唯一的结果(因为邮政编码搜索可能会呈现重复的结果)。从那里我得到每个唯一的URL。只需使用RegEx和一些页面迭代即可轻松解析评论。