有没有办法通过Chrome扩展程序从任何网站的文章中获取正文?

时间:2019-04-01 15:50:53

标签: python google-chrome-extension text-extraction

我正在对新闻文章进行一些自然语言处理,并希望能够使用chrome扩展名仅从给定站点上抓取主要文章文本。

我尝试使用一些JavaScript库,但发现最好的库是名为JusText的Python库。我可以在客户端的Chrome扩展程序中运行python吗?如果不是绝对必要,我不想维护服务器。

我尝试实现的javascript库是unfluffextract-main-text。提取主文本不一致/不准确,我无法轻松地工作(请参见下面的代码)。

松散:

      $.ajax({
          url: currentUrl,
          success: function(data) {
              html_data = data;
          }
      });

      var json = extractor(html_data, 'en');
      console.log("Unfluff Text:");
      console.dir(json);

会输出格式正确但的json对象。它应该填写了大多数字段(标题,日期,作者,文本等),但没有。

那么,我是否在松绒方面做错了什么?有没有办法在浏览器中使用JusText和Python(Python-> JavaScript转换)?我应该考虑使用其他用于Web的主要文本提取工具吗?

0 个答案:

没有答案