我有兴趣在用户生成的搜索查询之上培训问答系统,但到目前为止看起来似乎没有这样的数据。是否有一些研究中心或行业实验室编制了搜索引擎查询语料库?
答案 0 :(得分:4)
有几个这样的数据集:
Yahoo Weboscope: - http://webscope.sandbox.yahoo.com/catalog.php?datatype=l
Yandex数据集: - https://www.kaggle.com/c/yandex-personalized-web-search-challenge/data Kaggle问题的一部分。您可以注册并下载。
还有AOL查询日志和MSN查询日志,这些日志在过去10年中作为共享任务的一部分进行了公开。我不确定他们是否还在公开场合。但是你可以探索一下。
答案 1 :(得分:1)
Weboscope / Kaggle数据集有一些特定的限制。我会建议TREC数据集,例如此数据集from 2009