Question

我正在尝试从this page开始解析网页上的文字。此页面包含指向最终页面的链接（也可以手动将其移动到文本文件中;以避免在编码时花费额外的精力）。在左侧的最后一页上有一个页面索引。每个页面也有一个页面索引。页面索引位于每个页面的顶部。从这个项目列表中我只需要提取一行以“配置”，“配置示例”或“示例”开头。

这项任务在手动操作时似乎非常简单，但却令人生畏，难以追踪。如果可以从任何工具中提取此信息，该工具在找到时按层次结构顺序对项目进行爬网和记录。可能在一些简单的格式中，它还包括超链接或至少与正常的制表符分隔的文本文件一样。

网页上的信息是公开的，可以下载。如果很难通过网络提取可能我也可以尝试下载那些并尝试离线。

我尝试研究这个要求，看看LinksGrabber，WebParser，BeautifulSoup或用正则表达式解析文本可以做一些调整。但是，与实施这一想法相比，我还有几年的时间。

我正在尝试使用Python实现的目标是什么，或者采用现实的方法来解决这个问题。

PS：我知道这是网络搜索，但我只是出于个人教育的目的，并没有商业价值或任何关联。

Answer 1

您应该尝试Scrapy。在那里，您可以设置包含您想要的页面数据的模型，例如

from scrapy.item import Item, Field

class Torrent(Item):
    url = Field()
    name = Field()
    description = Field()
    size = Field()

你可以写一个刮掉这些数据的蜘蛛。 Scrapy at a glance

从网页中提取文本

1 个答案: