从文本中提取数据的最佳方法是什么?

时间:2019-06-17 19:11:53

标签: python text data-extraction natural-language-processing

因此,在这种情况下,人们会向我发送电子邮件,我需要识别特定的数据,例如材料的种类,数量,描述,压力,尺寸和其他技术规格。 我要接收的文本没有特定的格式,因此它必须适用于任何文本结构。

一个例子可能是: “我需要 100 适配器的价格。一侧需要为 3/4 ”,并且其他 1/2 ”。适配器必须至少抗 30 psi ,并且必须 30 cms 长。”

我当时正在考虑实施一个小程序(可能是python),该程序从电子邮件中接收文本,并寻找关键词来识别我感兴趣的数据。 我还浏览了一些自然语言处理主题,以查看是否可以在这种情况下使用它。

您认为在这种情况下会更好吗?

1 个答案:

答案 0 :(得分:1)

一个非常广泛的问题。您应该提供相关文本的具体示例,然后您就可以开始思考问题了。

例如,如果所获取的文本主要是结构化的,则可以使用正则表达式解决。 (在Python中为模块)。但是,如果它是完全自由形式的,使用完全不同的方式来描述您要提取的对象,那么您可能需要一些更高级的NLP。

尽管更好地显示了示例,但是却获得了此类电子邮件的完整语料库,并对其进行了更完整的分析。这样,无论采用哪种方法,您都可以衡量最终决定使用的算法的质量。