Boilerpipe Starter问题

时间:2012-09-23 22:14:21

标签: java exception text-extraction boilerpipe

我是samppipe的新手。我试图在他们的网站上运行示例代码:

  import java.net.URL;
  import de.l3s.boilerpipe.extractors.ArticleExtractor;
  import de.l3s.boilerpipe.extractors.DefaultExtractor;

    public class TESTURLBOILERPIPE {
        public static void main(String[] arges) throws Exception 

    {

         final URL url = new URL(
                    "http://www.l3s.de/web/page11g.do?sp=page11g&link=ln104g&stu1g.LanguageISOCtxParam=en");
         ArticleExtractor ae = new ArticleExtractor();
            System.out.println(ae.INSTANCE.getText(url));
    }
}

我已将所有必需的jar文件添加到类路径中,但是我得到了异常:

Exception in thread "main" java.lang.IllegalArgumentException: usage: supply url to fetch
at org.jsoup.helper.Validate.isTrue(Validate.java:45)
at org.jsoup.examples.HtmlToPlainText.main(HtmlToPlainText.java:26)

2 个答案:

答案 0 :(得分:0)

我不知道Boilerpipe,但您确定要尝试运行正确的Java类吗?堆栈跟踪看起来像你正在尝试运行HtmlToPlainText(没有参数,因此例外),但是从您发布的代码我想您想运行TESTURLBOILERPIPE类。

答案 1 :(得分:0)

尝试使用python包装器。它负责所有依赖项,但您可能必须手动安装jpype(源代码在sourceforge上)。

https://github.com/misja/python-boilerpipe