如何识别文本中的模式并对其进行分类

时间:2017-10-06 00:59:55

标签: c# regex database nlp text-mining

从存储药品描述的表格中,我需要确定每个条目的产品名称,强度,产品数量和制药公司。目标是获得具有预定义结构的表的副本。

当前表: current table

规范化表格 normalized table

到目前为止,我已经阅读了一些自然语言处理,但我想知道另一种方法;我在考虑使用正则表达式,但有很多情况。

任何形式的见解都会受到赞赏。

1 个答案:

答案 0 :(得分:1)

根据您的示例,您的数据足够常规,正则表达式可能是一种很好的方法。您可以尝试的更复杂的方法是命名实体识别(NER)。 “纽约时报”使用CRF++从食谱中提取成分信息并撰写了here

NER Example