我在哪里可以找到搜索引擎查询语料库?

时间:2015-06-02 01:09:17

标签: nlp search-engine google-search bing

我有兴趣在用户生成的搜索查询之上培训问答系统,但到目前为止看起来似乎没有这样的数据。是否有一些研究中心或行业实验室编制了搜索引擎查询语料库?

2 个答案:

答案 0 :(得分:4)

有几个这样的数据集:

Yahoo Weboscope: - http://webscope.sandbox.yahoo.com/catalog.php?datatype=l

Yandex数据集: - https://www.kaggle.com/c/yandex-personalized-web-search-challenge/data Kaggle问题的一部分。您可以注册并下载。

还有AOL查询日志和MSN查询日志,这些日志在过去10年中作为共享任务的一部分进行了公开。我不确定他们是否还在公开场合。但是你可以探索一下。

答案 1 :(得分:1)

Weboscope / Kaggle数据集有一些特定的限制。我会建议TREC数据集,例如此数据集from 2009