我正在尝试匹配字符串中的单词但是我不想匹配另一个单词中的单词...这个例子不好解释!
如果有单词pen
。我想在字符串中匹配该单词:
01pennsylvania'
不匹配,因为pen
是pennsylvania
一词的一部分。
但是,pensforsale
应匹配,因为pen
不是另一个字的一部分。我一直在研究NLTK,但我无法找到我想要的东西,有人能指出我正确的方向吗?我知道对所有单词组合都不可能做到这一点,但是稍微减少噪音会有很大的帮助。
提前致谢!
答案 0 :(得分:1)
您可能会发现此How to split text without spaces into list of words?是有用的开始;首先尝试将“pensforsale”拆分为单词列表,然后可以检查可能的变体,如复数等。
但这将是一个非常缓慢且容易出错的方式。