上下文是我从不同形式中提取了“化学内容”成自由文本。
最终目标是将提取的文件组织到一个结构化的数据库中,如下所示: final structured data
但是问题在于提取的文本文件格式不同: 一些化学和对应值逐行排列(很好) good example;
有些按列排列(我想还不错) not too good but okay
有些人也这样(有点头疼): headache example
所以我的问题是: 除了定义所有可能的模板来读取这些提取的文本以外,还有什么建议可以用来更有效地将提取的文本读取和组织到结构化数据库中(如我在开头所示)?
我真的是文本处理的新手,所以非常感谢您提供帮助。