python NLP解析非结构化数据

时间:2018-08-10 16:52:15

标签: python parsing nlp freeform

上下文是我从不同形式中提取了“化学内容”成自由文本。

最终目标是将提取的文件组织到一个结构化的数据库中,如下所示: final structured data

但是问题在于提取的文本文件格式不同: 一些化学和对应值逐行排列(很好)  good example;

有些按列排列(我想还不错)  not too good but okay

有些人也这样(有点头疼):  headache example

所以我的问题是: 除了定义所有可能的模板来读取这些提取的文本以外,还有什么建议可以用来更有效地将提取的文本读取和组织到结构化数据库中(如我在开头所示)?

我真的是文本处理的新手,所以非常感谢您提供帮助。

0 个答案:

没有答案