是否有任何Web API采用URL并返回该页面的可读内容?或者有没有可以执行此操作的JavaScript库?
无法安装node.js或任何服务器端应用程序。
答案 0 :(得分:1)
这实际上是一个非常难的问题。这些问题通常意味着您需要排除侧边栏和类似的“噪音”元素。这通常通过机器学习计算机领域内的不同训练集来解决,并且不容易开发。
话虽如此 - 看看:
这可以帮助您充分了解您可以更好地搜索问题域的空间。
答案 1 :(得分:0)
我认为您可以在Mashape(http://www.mashape.com/)上找到一些相关的服务。
搜索“文字”。像这样:https://www.mashape.com/search?query=text
那里有几个NLP / Analysis提供商,其中大部分是免费增值。
OTOH,还有一个叫做samppipe的项目。您可以通过以下网址测试其质量: