我可以看到很多人在弹性搜索中使用堆栈数据(在教程中)。从哪里可以获得可以直接在elasticsearch中导入的堆栈溢出数据的JSON转储?
答案 0 :(得分:4)
archive.org提供了24 GB的匿名数据转储。
你可以在这里找到它: documentation
推荐使用他们的种子文件下载: https://archive.org/details/stackexchange
您还可以阅读原始和官方博客帖子https://archive.org/download/stackexchange/stackexchange_archive.torrent。另一个有趣的信息是关于meta的帖子here(虽然它可能已经过时了)。
然后,您可以查看the schema of that data dump,以便将这些数据编入您的Elasticsearch。