我一直在做很多研究,以找出编写应用程序的最佳方法,以便从几乎任何HTML网页获取主要文章内容。我有一个使用libxml2来解析XML的C程序,但我遇到了Alchemy API,它似乎做了我想做的事。
但是,它只有一个在线API,我想在不依赖任何外部呼叫的情况下将应用程序保留在内部。
那么有人有提示吗?我希望有一个离线替代品,可以做Alchemy API可以做的事情(付费/非付费)。
我的替代方案可能是解析HTML并使用NLP(自然语言处理)技术和其他方法来获取主要文章内容。它将被使用的网站类型包括带有新闻栏目或博客的网站。
答案 0 :(得分:4)
有一些开源工具可以执行类似的文章提取任务。 https://github.com/jiminoc/goose由Gravity.com开源
它包含wiki的信息以及您可以查看的来源。有许多单元测试显示从各种文章中提取的文本。
答案 1 :(得分:0)
AlchemyAPI还提供内部部署解决方案,因此您无需在线访问它。一般而言,如果客户具有特殊的安全性或延迟要求,那么拥有内部部署解决方案的客户就会使用它。有关内部部署解决方案的更多信息,请访问:http://www.alchemyapi.com/products/on-premise/