什么适合我? generateAllGrams()或者generateCollocations()对我来说足够了吗?

时间:2011-03-14 07:08:26

标签: mahout summarization

我正在开发一个基于wordnet的文档摘要的项目。我需要提取搭配。我试图尽可能多地进行研究,但因为在我很难理解CollocDriver.java是如何工作的(在API上下文中)之前我还没有和Mahout合作过。

在浏览网页的同时,我登陆了这个: Mahout Collocations

这就是问题:我有一个POSTagged输入文字。我需要在它中识别搭配。我有collocdriver.java代码..现在我需要知道我如何使用它?无论是使用generateAllGrams()方法还是只使用generateCollocations()方法,我的摘要生成器中的子任务就足够了。??

最重要的是如何使用它?我提出这个问题因为我承认,我不太了解API,

我还有一个 grepcode version of collocdriver 两个实现似乎略有不同..输入是grepcode版本的字符串和原始的Path对象的形式......

我的问题:什么是输入参数中的配置对象以及如何使用它? source / destn将是字符串(如在grepcode中)还是Path(如在原始中)? 什么是输出?

我做了一些进一步的研究与开发关于collocdriver程序的D ...我发现它使用了一个序列文件然后生成了矢量...我想知道这个序列文件/矢量生成如何工作..plz帮助..

1 个答案:

答案 0 :(得分:0)

要使用mahout进行搭配,您需要遵循一些简单的步骤

1)您必须从您输入的文本文件中创建一个序列文件。

/ bin / mahout seqdirectory -i / home / developer / Desktop / colloc / -o / home / developer / Desktop / colloc / test-seqdir -c UTF-8 -chunk 5

2)有两种方法可以从序列文件生成搭配。

a)Convert sequence file to sparse vector and find out the collocation
b)Directly find out the collocation from the sequence file (with out creating the sparse vector)

3)我在考虑选择b。

/ bin / mahout org.apache.mahout.vectorizer.collocations.llr.CollocDriver -i / home / developer / Desktop / colloc / test-seqdir -o / home / developer / Desktop / colloc / test-colloc -a org.apache.mahout.vectorizer.DefaultAnalyzer -ng 3 -p

只需查看输出文件夹,你需要的文件就在那边!!! (按顺序文件格式)

/ bin / mahout seqdumper -s / home / developer / Desktop / colloc / test-colloc / ngrams / part-r-00000>> out.txt会给你一个文本输出!!!