有关从TripAdvisor抓取数据的任何建议

时间:2013-01-16 15:09:31

标签: nlp web-crawler corpus

我们目前正在开发一个NLP项目,需要一个旨在从tripadvisor.com中提取的语料库。我们期望输出有两种类型:评论和评论的评级。我的问题是:

  • 是否有最适合此目的的抓取工具?它必须易于使用,并且python是首选。我找到了美丽的汤,但我想在这里提出任何其他建议。

  • 是否有专门用于此目的的完整工具?我的意思是为tripadvisor.com编写的程序?

  • 对于从大型网站抓取数据(评论/评级)的任何其他建议将不胜感激。

语料库将用于大学研究的情绪分析,我们需要尽快抓取它。

2 个答案:

答案 0 :(得分:0)

对于python,你可以使用scrapy,这是一个熟练的爬虫框架,http://scrapy.org/

此外,我邀请您分享您收集的数据。如果tripadvisor数据已准备就绪,则无需进行爬网。或者至少,您可以共享爬网程序脚本。

答案 1 :(得分:0)

在相应的订单中回答您的问题:

  • 您需要的是Web Scraping工具。爬虫自动执行该过程 导航页面,而刮刀将HTML转换为 结构化数据。有许多工具可供选择 平台。不知道美丽的汤。你在设计吗? 刮刀还是会买?

  • 您可以根据自己的需要准备好语料库或制作Web Scraper 定制需求。您可以申请数据或编写刮刀 手动使用ScraperWiki。我不知道您的数据结构,但可以使用Google Spreadsheet抓取一些数据。你可以看到here。只需查看哪种类型的数据被删除,以及它是否与您的数据类似,那么您就可以使用它。

  • 无法抓取某些网站或其特定目录。您可以 检查他们的robots.txt以了解相同情况。另请阅读政策 从网站抓取数据之前的网站。

你没有问过,here是一些免费的情绪分析工具。