标签: python nlp nltk gensim
Hello堆栈溢出社区,
我遇到以下问题:我目前正在挖掘支持票据数据库,并希望使用例如Doc2Vec检查门票之间的相似性。但是,该文本包含由OS或编译器命令生成的大字符串。因此,将这些字符串用作模型中的单个单词并不聪明。这里的好习惯是什么?有没有人经历过类似的事情?
托尔斯滕