因此,在这种情况下,人们会向我发送电子邮件,我需要识别特定的数据,例如材料的种类,数量,描述,压力,尺寸和其他技术规格。 我要接收的文本没有特定的格式,因此它必须适用于任何文本结构。
一个例子可能是: “我需要 100 铜 适配器的价格。一侧需要为 3/4 ”,并且其他 1/2 ”。适配器必须至少抗 30 psi ,并且必须 30 cms 长。”
我当时正在考虑实施一个小程序(可能是python),该程序从电子邮件中接收文本,并寻找关键词来识别我感兴趣的数据。 我还浏览了一些自然语言处理主题,以查看是否可以在这种情况下使用它。
您认为在这种情况下会更好吗?
答案 0 :(得分:1)
一个非常广泛的问题。您应该提供相关文本的具体示例,然后您就可以开始思考问题了。
例如,如果所获取的文本主要是结构化的,则可以使用正则表达式解决。 (在Python中为模块)。但是,如果它是完全自由形式的,使用完全不同的方式来描述您要提取的对象,那么您可能需要一些更高级的NLP。
尽管更好地显示了示例,但是却获得了此类电子邮件的完整语料库,并对其进行了更完整的分析。这样,无论采用哪种方法,您都可以衡量最终决定使用的算法的质量。