我正在对新闻文章进行一些自然语言处理,并希望能够使用chrome扩展名仅从给定站点上抓取主要文章文本。
我尝试使用一些JavaScript库,但发现最好的库是名为JusText的Python库。我可以在客户端的Chrome扩展程序中运行python吗?如果不是绝对必要,我不想维护服务器。
我尝试实现的javascript库是unfluff和extract-main-text。提取主文本不一致/不准确,我无法轻松地工作(请参见下面的代码)。
松散:
$.ajax({
url: currentUrl,
success: function(data) {
html_data = data;
}
});
var json = extractor(html_data, 'en');
console.log("Unfluff Text:");
console.dir(json);
会输出格式正确但空的json对象。它应该填写了大多数字段(标题,日期,作者,文本等),但没有。
那么,我是否在松绒方面做错了什么?有没有办法在浏览器中使用JusText和Python(Python-> JavaScript转换)?我应该考虑使用其他用于Web的主要文本提取工具吗?