确定网站文章中的主要文字

时间:2014-09-19 12:28:37

标签: python web web-scraping nlp

我想知道是否有一些工具给博客/网页提供了一个网址,它识别并提取主要文本。因为文章页面,比如博客文章,可能有不同的文本部分,这部分之一就是文章本身。有一种方法可以识别和提取它吗?

谢谢。

2 个答案:

答案 0 :(得分:1)

此问题有三个步骤:

  1. 从网址
  2. 中检索数据
  3. 提取文章文字(删除广告......)
  4. 总结文字
  5. 使用Python urllib2.urlopen可以轻松完成

    1。

    如果您了解网站的结构(主要HTML标签等),可以使用BeautifulSoup等工具轻松完成。以通用方式删除广告是一个更大的主题 - 您可以在线找到关于该主题的一些研究。

    通过提取句子来创建摘要是众所周知的领域。我认为 NLTK有一些模块可以做到这一点。你甚至可以看一下我写的a simple (and effective) approach

答案 1 :(得分:0)

您可以使用AJAX调用来获取内容,但您必须位于同一个域中。你不能复制别人的内容。

或者,使用

$content = file_get_contents('{filename}');
使用PHP抓取它,然后使用html标记(例如'< section>')将其拆分。

你在用它做什么?因为如果它是你的内容,我会使用ajax并始终将你想要抓取的内容放在一个分配了特定类的标签中。如果是其他人的内容,那么您可能需要先征得他们的同意。