我搜索了文档但无法找到存储所有数据的位置。 我想访问所有已爬网的数据,以便进行自己的处理。
答案 0 :(得分:0)
在文件StartStopListener中设置索引目录:查找环境值 OPENSEARCHSERVER_DATA , OPENSEARCHSERVER_MULTIDATA 或 OPENSHIFT_DATA_DIR <的值/强>
现在,您是否能够轻松/正确地解析文件是另一个争论:我从未试图直接手动直接打开搜索服务器的索引,我不知道索引格式是否良好记录。
答案 1 :(得分:0)
默认情况下,不会存储已爬网的数据。仅存储提取的文本。可以存储已爬网的数据,以下是流程:
重新启动索引编制过程。现在,所有已爬网的数据都将复制到此字段。不要忘记在查询中将其添加为返回的字段。