在Web上扫描文章

时间:2015-03-28 11:21:54

标签: machine-learning nlp artificial-intelligence

我想创建一个类似Summly移动应用程序的应用程序。 你能告诉我:

  1. 如何扫描网页(一组在线资源)以提取文字
  2. 我必须使用哪些工具?
  3. 推荐一些很好的实用资源(请不要理论 - 我也找到了那些类型的书籍)
  4. 这样做的原因 - 从实际方面深入研究机器学习领域。

    THX!

1 个答案:

答案 0 :(得分:1)

此类应用程序中的数据获取基本上是微不足道的 - 通常有一个(固定的)源URL列表,并使用实现Web请求的标准函数从它们检索数据,特别是HTTP GET(它们是特定于语言但在大多数情况下可用)语言现在)。然后用一些HTML解析库(如Agility pack for .NET)解析HTML,并使用手工设计的XPath查询检索所需的文章。这根本不需要任何机器学习。

可能使用的工具和方法的数量是巨大的,可以通过堆叠像上面这样的简单数据下载器和一些开源摘要工具来创建类似Summly的东西(这些可以通过Google搜索"自动摘要和#34;和#34;自动摘要库")或通过调用一些在线摘要API,而不需要任何机器学习和语言处理知识。这个问题太简单了,你应该以某种方式缩小你的目标。