弹性搜索-提取复杂文件

时间:2019-04-01 14:44:10

标签: elasticsearch lotus-notes lotus

我有一个大文件,该文件最初来自旧的Lotus Notes数据库。该文件如下所示:

    Reference: 123
    Title:     My first line of text
    Notes:     This is a short description of the reference. 

               As you can see it takes up multiple lines and includes 

               multiple carriage returns

   <0x0c>

    ActionType: Save
    Reference:  345
    Title:      My second line of text
    Notes:      This is another short description of the reference: 

                As you can see it also takes up multiple lines and includes 

                multiple carriage returns

   <0x0c>

对于存储在DB中的每个记录,<0x0c>字符似乎充当行定界符。

理想情况下,我希望将这些数据存储在ms access db中,希望弹性搜索可以解决此问题,但是我很难将这些数据转换为json,xml或弹性搜索可以理解的任何其他格式,特别是因为每一行的列都是不均匀的,例如ActionType可能存在于一个中,而不是另一个。

我认为我可以将文本解析为:之前的任何内容,而该字段为列标题,而值则是该公式之后但回车之前的所有内容。

是否有一种简单的方法将数据导入可以读取的数据?

0 个答案:

没有答案