从网页中提取文本

时间:2012-09-08 10:33:40

标签: python html regex python-3.x web-scraping

我正在尝试从this page开始解析网页上的文字。此页面包含指向最终页面的链接(也可以手动将其移动到文本文件中;以避免在编码时花费额外的精力)。在左侧的最后一页上有一个页面索引。每个页面也有一个页面索引。页面索引位于每个页面的顶部。从这个项目列表中我只需要提取一行以“配置”,“配置示例”或“示例”开头。

这项任务在手动操作时似乎非常简单,但却令人生畏,难以追踪。如果可以从任何工具中提取此信息,该工具在找到时按层次结构顺序对项目进行爬网和记录。可能在一些简单的格式中,它还包括超链接或至少与正常的制表符分隔的文本文件一样。

网页上的信息是公开的,可以下载。如果很难通过网络提取可能我也可以尝试下载那些并尝试离线。

我尝试研究这个要求,看看LinksGrabber,WebParser,BeautifulSoup或用正则表达式解析文本可以做一些调整。但是,与实施这一想法相比,我还有几年的时间。

我正在尝试使用Python实现的目标是什么,或者采用现实的方法来解决这个问题。

PS:我知道这是网络搜索,但我只是出于个人教育的目的,并没有商业价值或任何关联。

1 个答案:

答案 0 :(得分:1)

您应该尝试Scrapy。在那里,您可以设置包含您想要的页面数据的模型,例如

from scrapy.item import Item, Field

class Torrent(Item):
    url = Field()
    name = Field()
    description = Field()
    size = Field()

你可以写一个刮掉这些数据的蜘蛛。 Scrapy at a glance