具有可读性的新闻解析

时间:2019-02-08 23:02:53

标签: javascript python google-sheets zapier ifttt

我正在尝试使用类似方法自动从新闻网址中提取数据 https://zapier.comhttps://ifttt.com

主要目标是将漂亮的新闻网址文字添加到Google电子表格中。尝试使用“ importXML”之类的功能失败,原因是我需要分析具有不同结构的url。

我当时正在考虑使用readability.js https://code.google.com/archive/p/arc90labs-readability/downloads之类的东西来将html转换为漂亮的文本,因为zapier允许使用javascript或python代码片段。

问题出在zapier中,您不能使用这些编程语言(例如beautifulsoup)非标准的模块来刮擦URL。

是否有可能将URL传递给readability.js的代码 https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/arc90labs-readability/readability.js 或通过API调用https://mercury.postlight.com/web-parser/ 返回漂亮的文字?

1 个答案:

答案 0 :(得分:0)

Zapier Platform团队的David在这里。是的,这完全有可能!

今天最简单的方法是向Mercury Parser发出POST请求,该请求将返回有关文章的信息。可以使用几个月(直到他们的API shuts off)。他们已经开源了他们的代码,因此,如果您喜欢它们(我也喜欢!),则可以将其库包装在一次性CLI app中,Zapier将为您运行他们的代码。老实说,我可能会很快将其自己使用,如果您愿意,您可以使用它!准备好后,我将更新此答案。