应用错误收集

时间：2013-01-16 15:09:31

标签： nlp web-crawler corpus

我们目前正在开发一个NLP项目，需要一个旨在从tripadvisor.com中提取的语料库。我们期望输出有两种类型：评论和评论的评级。我的问题是：

语料库将用于大学研究的情绪分析，我们需要尽快抓取它。

答案 0 :(得分：0)

对于python，你可以使用scrapy，这是一个熟练的爬虫框架，http://scrapy.org/

此外，我邀请您分享您收集的数据。如果tripadvisor数据已准备就绪，则无需进行爬网。或者至少，您可以共享爬网程序脚本。

答案 1 :(得分：0)

在相应的订单中回答您的问题：

您需要的是Web Scraping工具。爬虫自动执行该过程导航页面，而刮刀将HTML转换为结构化数据。有许多工具可供选择平台。不知道美丽的汤。你在设计吗？刮刀还是会买？
您可以根据自己的需要准备好语料库或制作Web Scraper 定制需求。您可以申请数据或编写刮刀手动使用ScraperWiki。我不知道您的数据结构，但可以使用Google Spreadsheet抓取一些数据。你可以看到here。只需查看哪种类型的数据被删除，以及它是否与您的数据类似，那么您就可以使用它。
无法抓取某些网站或其特定目录。您可以检查他们的robots.txt以了解相同情况。另请阅读政策从网站抓取数据之前的网站。

你没有问过，here是一些免费的情绪分析工具。