我想使用NLTK的PCFG来解析格式错误的描述;例如旧式分类广告的公寓列表。列表可能如下所示:
2BR 2BTH 1400sqft $2000/mo washer dryer, close to downtown
由于列表是手动输入的,因此空格可能不合适,序列可能会发生变化:
$2000 2BR2BTH1400ft washer, dryer, new york city
或更糟
$2000 2BR2BTH1400ft washdry newyorkcity
$2000 2BR2BTH1400ft washdry closetodowntown
我想使用PCFG或CFG,但似乎NLTK希望在解析之前对输入字符串进行标记化。如上所示,NLTK希望我如何使用不会轻易脱离标记器的令牌?
谢谢!