将一个TXT文件作为Scala中的停用词列表传递

时间:2013-01-09 10:25:23

标签: scala stop-words

我正在使用stanford主题建模工具箱(TMT)http://nlp.stanford.edu/software/tmt/tmt-0.4/,我想准备我的文本数据集。 我有一个停用词的txt文件。

然而,

TermStopListFilter() 

过滤掉我的CSV数据集中的停用词,只接受脚本中的列表,例如:

TermStopListFilter(List("positively","scrumptious"))

如何导入我的stopwords.txt文件并将其用作我的停用词列表?

我使用的代码的全部内容:

val source = CSVFile("filtered.csv"); 

val text = {
  source ~>                              
  Column(1) ~>                           
  TokenizeWith(tokenizer) ~>             
  TermCounter() ~>                       
  TermMinimumDocumentCountFilter(100) ~>   
  TermStopListFilter(TXTFile("stopwords.txt"))  
  TermDynamicStopListFilter(10) ~>       
  DocumentMinimumLengthFilter(5)
}

1 个答案:

答案 0 :(得分:1)

好吧,如果你的停用词是“,”分开,你可以试试这个:

 . 
 .
      TermStopListFilter(Source("stopwords.txt").getLines().map(_.split(",")).toList) 
 .
 .

如果您在stopwords.txt中的停用词由其他某个字符分隔,请相应更改split(","),并且您很可能应删除该行:TermStopListFilter(List("positively","scrumptious"))