我有大量的餐厅菜肴(例如,#34; Pulled Pork"," Beef Brisket" ...)
我正在尝试"规范化" (错字)这些菜。我想要"拉猪肉"和#34;拉猪肉三明治"和#34; Jumbo Pork Slider"所有要映射到一个菜,"拉猪肉"。
到目前为止,我已经开始使用Python开始使用NLTK,并且在使用频率分布等方面玩得很开心。
有没有人有解决此问题的高级策略?也许我可以google一些关键词?
由于
答案 0 :(得分:1)
听起来你有效地试图在命名实体上做coreference resolution,其中实体是不同的菜肴。您可以查看cort
和nltk-drt
等项目。
然而,从你的例子来看,有点不清楚为什么拉猪肉三明治应该被认为是与拉猪肉相同的菜,所以你可能需要一种方法来提出你自己的训练集(例如从谷歌中剔除)标记实体与你想要的宽容度截然不同。