我正在使用Facebook的Fasttext进行文本分类。 我想知道fasttext库如何处理文本字符串中作为数字矢量化输入提供的数字。
在创建单词向量之前,fasttext是否将每个数字以字符串形式转换?
例如1124至“ 1124”
还是在训练之前在后台执行其他任何转换/预处理?
例如1124至“一一二四”
如果我在快速文本中输入的文本包含数字,那么处理数字数据的最佳方法应该是什么?
答案 0 :(得分:2)
Fasttext不会对数字标记进行任何预处理。它们像其他用空格分隔的“单词”一样对待。
除非您在输入中已经遇到快速文本和数字的特定问题,否则我不会担心快速文本对数字有何影响。只需正常使用即可。
如果您有很多数字,并且它们引起了问题-这是可能的,因为fasttext可能没有针对大多数特定数字的任何有用的向量-您可以进行预处理,以用{{1}替换它们}或其他虚拟令牌。这样,这些句子将与快速文本相同:
您是否希望将它们视为相同还是不相同取决于您的应用程序。