Question

我正在对新闻文章进行一些自然语言处理，并希望能够使用chrome扩展名仅从给定站点上抓取主要文章文本。

我尝试使用一些JavaScript库，但发现最好的库是名为JusText的Python库。我可以在客户端的Chrome扩展程序中运行python吗？如果不是绝对必要，我不想维护服务器。

我尝试实现的javascript库是unfluff和extract-main-text。提取主文本不一致/不准确，我无法轻松地工作（请参见下面的代码）。

松散：

      $.ajax({
          url: currentUrl,
          success: function(data) {
              html_data = data;
          }
      });

      var json = extractor(html_data, 'en');
      console.log("Unfluff Text:");
      console.dir(json);

会输出格式正确但空的json对象。它应该填写了大多数字段（标题，日期，作者，文本等），但没有。

那么，我是否在松绒方面做错了什么？有没有办法在浏览器中使用JusText和Python（Python-> JavaScript转换）？我应该考虑使用其他用于Web的主要文本提取工具吗？

有没有办法通过Chrome扩展程序从任何网站的文章中获取正文？

0 个答案: