标记产品模型

时间:2015-07-30 23:50:58

标签: regex perl lexical-analysis

希望匹配某些产品信息,返回结构化数据并重写或查找值。

示例输入:

"I have a 1999 Cat (D-6) and an Ingersoll Rand Model Z for sale"

我想从中创建类似

的内容
[ { year:1999, brand:"CATERPILLAR", model:"D6" },
{ year:null, brand:"INGERSOLL-RAND", model:"MODEL Z" } ]

基于已知数据:

/\d{4}/, YEAR
...
/cat(erpill[ae]r)/, BRAND, "CATERPILLAR"
...
/d[\-\s]6/, MODEL, "D6"

这可以单靠Regex完成吗?或者我需要一个Lexer?

我可以弄清楚正则表达式没有问题,但对重写部分感到困惑,并将事物分组在一起

1 个答案:

答案 0 :(得分:0)

我想你想提取汽车交易细节。

这里需要NLP,您可以使用Stanford Core NLP设计自己的NLP正则表达式,也可以训练数据集。

但是Stanford NER是开发的模型,它会为您提供日期和时间,组织,位置,人员,百分比和价格等实体。

其他相关工具:apache openNLPaylien