规范化餐馆菜肴清单

时间:2015-08-26 19:37:09

标签: python machine-learning nlp nltk

我有大量的餐厅菜肴(例如,#34; Pulled Pork"," Beef Brisket" ...)

我正在尝试"规范化" (错字)这些菜。我想要"拉猪肉"和#34;拉猪肉三明治"和#34; Jumbo Pork Slider"所有要映射到一个菜,"拉猪肉"。

到目前为止,我已经开始使用Python开始使用NLTK,并且在使用频率分布等方面玩得很开心。

有没有人有解决此问题的高级策略?也许我可以google一些关键词?

由于

1 个答案:

答案 0 :(得分:1)

听起来你有效地试图在命名实体上做coreference resolution,其中实体是不同的菜肴。您可以查看cortnltk-drt等项目。

然而,从你的例子来看,有点不清楚为什么拉猪肉三明治应该被认为是与拉猪肉相同的菜,所以你可能需要一种方法来提出你自己的训练集(例如从谷歌中剔除)标记实体与你想要的宽容度截然不同。