我想知道是否有一些工具给博客/网页提供了一个网址,它识别并提取主要文本。因为文章页面,比如博客文章,可能有不同的文本部分,这部分之一就是文章本身。有一种方法可以识别和提取它吗?
谢谢。
答案 0 :(得分:1)
此问题有三个步骤:
1。
如果您了解网站的结构(主要HTML标签等),可以使用BeautifulSoup等工具轻松完成。以通用方式删除广告是一个更大的主题 - 您可以在线找到关于该主题的一些研究。
通过提取句子来创建摘要是众所周知的领域。我认为 NLTK有一些模块可以做到这一点。你甚至可以看一下我写的a simple (and effective) approach。
答案 1 :(得分:0)
您可以使用AJAX调用来获取内容,但您必须位于同一个域中。你不能复制别人的内容。
或者,使用
$content = file_get_contents('{filename}');使用PHP抓取它,然后使用html标记(例如'< section>')将其拆分。
你在用它做什么?因为如果它是你的内容,我会使用ajax并始终将你想要抓取的内容放在一个分配了特定类的标签中。如果是其他人的内容,那么您可能需要先征得他们的同意。