如何在opensearchserver中访问原始数据?

时间:2012-09-16 16:48:56

标签: database search-engine

我搜索了文档但无法找到存储所有数据的位置。 我想访问所有已爬网的数据,以便进行自己的处理。

2 个答案:

答案 0 :(得分:0)

在文件StartStopListener中设置索引目录:查找环境值 OPENSEARCHSERVER_DATA OPENSEARCHSERVER_MULTIDATA OPENSHIFT_DATA_DIR <的值/强>

现在,您是否能够轻松/正确地解析文件是另一个争论:我从未试图直接手动直接打开搜索服务器的索引,我不知道索引格式是否良好记录。

答案 1 :(得分:0)

默认情况下,不会存储已爬网的数据。仅存储提取的文本。可以存储已爬网的数据,以下是流程:

  1. 创建一个新字段:将“stored”参数设置为yes或压缩。
  2. 转到架构/解析器列表
  3. 编辑HTML解析器
  4. 在“字段映射”选项卡中,将解析器字段“htmlSource”链接到新字段。
  5. 重新启动索引编制过程。现在,所有已爬网的数据都将复制到此字段。不要忘记在查询中将其添加为返回的字段。