python - 确定网站文章中的主要文字

时间：2014-09-19 12:28:37

标签： python web web-scraping nlp

我想知道是否有一些工具给博客/网页提供了一个网址，它识别并提取主要文本。因为文章页面，比如博客文章，可能有不同的文本部分，这部分之一就是文章本身。有一种方法可以识别和提取它吗？

谢谢。

答案 0 :(得分：1)

此问题有三个步骤：

1。

如果您了解网站的结构（主要HTML标签等），可以使用BeautifulSoup等工具轻松完成。以通用方式删除广告是一个更大的主题 - 您可以在线找到关于该主题的一些研究。

通过提取句子来创建摘要是众所周知的领域。我认为 NLTK有一些模块可以做到这一点。你甚至可以看一下我写的a simple (and effective) approach。

答案 1 :(得分：0)

您可以使用AJAX调用来获取内容，但您必须位于同一个域中。你不能复制别人的内容。

或者，使用

$content = file_get_contents('{filename}');

使用PHP抓取它，然后使用html标记（例如'＆lt; section＆gt;'）将其拆分。

你在用它做什么？因为如果它是你的内容，我会使用ajax并始终将你想要抓取的内容放在一个分配了特定类的标签中。如果是其他人的内容，那么您可能需要先征得他们的同意。