我打算尝试使用带有可调节的可接受分数参数的fuzzywuzzy 本质上它会检查单词是否在词汇表中,如果没有,它会要求fuzzywuzzy选择最佳模糊匹配,并且如果它至少是某个分数,则接受该标记列表。
如果这不是处理大量拼写错误和略有不同拼写但相似词语的最佳方法,我愿意接受建议。
问题是子类一直抱怨它有一个空的词汇表,这没有任何意义,因为当我在我的代码的同一部分使用常规的计数向量化工具时,它工作正常。
它会像这样吐出许多错误:ValueError:空词汇;也许这些文件只包含停用词
我错过了什么?我还没有做任何特别的事情。它应该像平常一样工作:
class FuzzyCountVectorizer(CountVectorizer):
def __init__(self, input='content', encoding='utf-8', decode_error='strict',
strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None,
token_pattern="(?u)\b\w\w+\b", ngram_range=(1, 1), analyzer='word',
max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False,
dtype=numpy.int64, min_fuzzy_score=80):
super().__init__(
input=input, encoding=encoding, decode_error=decode_error, strip_accents=strip_accents,
lowercase=lowercase, preprocessor=preprocessor, tokenizer=tokenizer, stop_words=stop_words,
token_pattern=token_pattern, ngram_range=ngram_range, analyzer=analyzer, max_df=max_df,
min_df=min_df, max_features=max_features, vocabulary=vocabulary, binary=binary, dtype=dtype)
# self._trained = False
self.min_fuzzy_score = min_fuzzy_score
@staticmethod
def remove_non_alphanumeric_chars(s: str) -> 'str':
pass
@staticmethod
def tokenize_text(s: str) -> 'List[str]':
pass
def fuzzy_repair(self, sl: 'List[str]') -> 'List[str]':
pass
def fit(self, raw_documents, y=None):
print('Running FuzzyTokenizer Fit')
#TODO clean up input
super().fit(raw_documents=raw_documents, y=y)
self._trained = True
return self
def transform(self, raw_documents):
print('Running Transform')
#TODO clean up input
#TODO fuzzyrepair
return super().transform(raw_documents=raw_documents)
答案 0 :(得分:2)
scikit-learn的CountVectorizer
的原始函数定义有
token_pattern=r"(?u)\b\w\w+\b"
虽然在你的子类中你没有使用转义r
字符串前缀,因此这个问题。而不是复制所有__init__
参数,可能更容易使用,
def __init__(self, *args, **kwargs):
self.min_fuzzy_score = kwargs.pop('min_fuzzy_score', 80)
super().__init__(*args, **kwargs)
至于这是否是最好的方法,它取决于数据集的大小。对于总共N_words
且词汇量为N_vocab_size
的文档集,此方法需要进行O(N_words*N_vocab_size)
繁琐的单词比较。如果您使用标准CountVectorizer
向量化数据集,然后通过模糊匹配减少计算的词汇量(和包装字词矩阵),则需要“仅”O(N_vocab_size**2)
比较。
对于超过10,000个单词的词汇,这可能仍然不能很好地扩展。如果您打算在生成的稀疏数组上应用某些机器学习算法,您可能还需要尝试字符n-gram,这对于打字错误也会有些强大。