如何在R语言tm(文本挖掘)包中使用stemDocument?

时间:2011-10-01 13:15:32

标签: java r stemming

我试图在调用Java的R语言包中使用stemDocument来阻止语料库。 我在tm手册中尝试过这个例子:

data("crude")
crude[[1]]
stemDocument(crude[[1]])

并收到以下错误:

Could not initialize the GenericProperitiesCreator.  This exception was produced:  
java.lang.NullPointerException

任何帮助表示赞赏。我对Java一无所知。

由于

3 个答案:

答案 0 :(得分:1)

好问题,你有没有解决这个问题?

我只用你拥有的代码得到同样的错误。但是如果你从一开始就遵循这个例子(即标题'p. 1上的转换)并创建一个语料库并将其转换为纯文本文档,那么就可以避免Java错误。我想manual中的代码示例假设您已经完成了这两个步骤。

那就是说,当我检查结果时,没有真正的干扰...我甚至无法得到@ user813966的simple example的stemDocument来做任何干预。我正在寻找RStem和SnowBall软件包。

与此同时,python package NLTK是我的词干工具。

更新:我通过添加language = "english"获得了stemDocument功能,如下所示:

a <- tm_map(a, stemDocument, language = "english") 

因此,对您的问题的完整答案是遵循根据tm包将文本输入R的所有步骤。您还需要rJava(并且如果您在Windows中工作,则将JAVA_HOME的环境变量设置为包含jre目录的目录)以使stemDocument正常工作

答案 1 :(得分:1)

我有同样的错误。通过在我的类路径中添加Snowball .jar和词干的相应/单词存储库来解决它: C:\ Users \用户xxx.xxx \文件\ r \赢库\ 2.12 \雪球\ java中

这里建议:http://weka.wikispaces.com/Stemmers

我仍然有以下错误,但现在工作正常:

Trying to add database driver (JDBC): RmiJdbc.RJDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): jdbc.idbDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.gjt.mm.mysql.Driver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): com.mckoi.JDBCDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.hsqldb.jdbcDriver - Warning, not in CLASSPATH?
[KnowledgeFlow] Loading properties and plugins...
[KnowledgeFlow] Initializing KF...

答案 2 :(得分:1)

Snowball stemmer(snowball.jar)找不到weka.jar文件。

在您的计算机上,您需要搜索名为weka.jar的文件。在我的linux系统上,它位于

  

/usr/local/lib/R/site-library/RWekajars/java/weka.jar

然后,在您的R代码中,在顶部添加与这些类似的行:

wekajar="/usr/local/lib/R/site-library/RWekajars/java/weka.jar"
oldcp=Sys.getenv("CLASSPATH")
newcp=NULL
Sys.setenv(CLASSPATH=paste(wekajar,newcp, sep=":"))

library("tm")    
data("crude")
stemDocument(crude[[1]], language = "english" )

这将R Session的Java CLASSPATH设置为上面的weka.jar文件。但是,您的现有类路径将被重置。如果您有旧条目,可以尝试添加旧条目,如果需要,可以尝试。

相关问题