使用带有格式错误输入的NLTK

时间:2015-04-15 12:58:52

标签: nltk

我想使用NLTK的PCFG来解析格式错误的描述;例如旧式分类广告的公寓列表。列表可能如下所示:

2BR 2BTH 1400sqft $2000/mo washer dryer, close to downtown

由于列表是手动输入的,因此空格可能不合适,序列可能会发生变化:

$2000 2BR2BTH1400ft washer, dryer, new york city

或更糟

$2000 2BR2BTH1400ft washdry newyorkcity
$2000 2BR2BTH1400ft washdry closetodowntown

我想使用PCFG或CFG,但似乎NLTK希望在解析之前对输入字符串进行标记化。如上所示,NLTK希望我如何使用不会轻易脱离标记器的令牌?

谢谢!

0 个答案:

没有答案