Question

我正在开发一个基于wordnet的文档摘要的项目。我需要提取搭配。我试图尽可能多地进行研究，但因为在我很难理解CollocDriver.java是如何工作的（在API上下文中）之前我还没有和Mahout合作过。

在浏览网页的同时，我登陆了这个： Mahout Collocations

这就是问题：我有一个POSTagged输入文字。我需要在它中识别搭配。我有collocdriver.java代码..现在我需要知道我如何使用它？无论是使用generateAllGrams（）方法还是只使用generateCollocations（）方法，我的摘要生成器中的子任务就足够了。??

最重要的是如何使用它？我提出这个问题因为我承认，我不太了解API，

我还有一个 grepcode version of collocdriver 两个实现似乎略有不同..输入是grepcode版本的字符串和原始的Path对象的形式......

我的问题：什么是输入参数中的配置对象以及如何使用它？ source / destn将是字符串（如在grepcode中）还是Path（如在原始中）？什么是输出？

我做了一些进一步的研究与开发关于collocdriver程序的D ...我发现它使用了一个序列文件然后生成了矢量...我想知道这个序列文件/矢量生成如何工作..plz帮助..

Answer 1

要使用mahout进行搭配，您需要遵循一些简单的步骤

1）您必须从您输入的文本文件中创建一个序列文件。

/ bin / mahout seqdirectory -i / home / developer / Desktop / colloc / -o / home / developer / Desktop / colloc / test-seqdir -c UTF-8 -chunk 5

2）有两种方法可以从序列文件生成搭配。

a)Convert sequence file to sparse vector and find out the collocation
b)Directly find out the collocation from the sequence file (with out creating the sparse vector)

3）我在考虑选择b。

/ bin / mahout org.apache.mahout.vectorizer.collocations.llr.CollocDriver -i / home / developer / Desktop / colloc / test-seqdir -o / home / developer / Desktop / colloc / test-colloc -a org.apache.mahout.vectorizer.DefaultAnalyzer -ng 3 -p

只需查看输出文件夹，你需要的文件就在那边!!! （按顺序文件格式）

/ bin / mahout seqdumper -s / home / developer / Desktop / colloc / test-colloc / ngrams / part-r-00000＆gt;＆gt; out.txt会给你一个文本输出!!!

什么适合我？ generateAllGrams（）或者generateCollocations（）对我来说足够了吗？

1 个答案: