我从单个文本文件创建了单词列表&它工作得很好。以下步骤: -
流程操作员:检索数据> Nominal to Text>处理来自数据的文档>子过程运算符:Tokenize>变换案例>过滤器令牌(按长度)>过滤器停用词(英语)>茎(雪球) Vector Creation是TF-IDF&修剪方法绝对,修剪低于1&修剪5以上(因为它是一个行数很少的文件) 结果wordlist中的示例单词: 分析人士 云 明确 但是当我从一组文本文件中做同样的事情时,生成的wordlist在每个单词中都有字符间距。脚步: 从文件处理文档(选择语料库目录),矢量创建为TF-IDF&修剪方法为无 子过程:Tokenize>过滤器停用词(英语)>过滤标记(按长度)>干(雪球)>转换案例(小写) 我在Tokenize&中设置了一个断点。注意到单词中的字符间距出现在这个阶段本身。源文本文件没有这样的数据问题。 结果WordList中的示例单词:
e m p o w e r
b i g d a t a
有人可以帮忙解决这个问题吗?是否还要设置其他参数或在流程中使用任何其他运算符来解决此问题并创建更有意义且更集中的词表? 谢谢,Geeta