希望匹配某些产品信息,返回结构化数据并重写或查找值。
示例输入:
"I have a 1999 Cat (D-6) and an Ingersoll Rand Model Z for sale"
我想从中创建类似
的内容[ { year:1999, brand:"CATERPILLAR", model:"D6" },
{ year:null, brand:"INGERSOLL-RAND", model:"MODEL Z" } ]
基于已知数据:
/\d{4}/, YEAR
...
/cat(erpill[ae]r)/, BRAND, "CATERPILLAR"
...
/d[\-\s]6/, MODEL, "D6"
这可以单靠Regex完成吗?或者我需要一个Lexer?
我可以弄清楚正则表达式没有问题,但对重写部分感到困惑,并将事物分组在一起
答案 0 :(得分:0)
我想你想提取汽车交易细节。
这里需要NLP,您可以使用Stanford Core NLP设计自己的NLP正则表达式,也可以训练数据集。
但是Stanford NER是开发的模型,它会为您提供日期和时间,组织,位置,人员,百分比和价格等实体。
其他相关工具:apache openNLP,aylien