我有一个非常具体的URL列表,我需要从这些URL中抓取数据(不同的选择器/字段)。来自大约300个具有不同结构(选择器/ xpath)的不同网站的大约1000个链接。我正在尝试查看是否有人对如何完成此操作有任何建议。我在网上寻找解决方案,看到有人推荐Python和Scrapy。虽然我对这些知识不了解很多并且仍然想理解,但是从网上发现的内容似乎是我使用Scrapy / Python来完成的,看起来我将不得不为每个链接创建一个单独的蜘蛛(至少具有不同的链接)结构体)。我也查看了Scrapy的通用Spider方法,并尝试在我的案例中使用这些方法,但是它们没有用。
我要提取的示例链接和字段如下所示,其中“ url”是页面,而“ selector”标识的字段是我要从该页面提取的内容。我想在“名称”字段下提供每个输出
"urls":[
{
"url":"https://www.australianclinicaltrials.gov.au/resources-clinical-trials-australia",
"fields":[
{
"name":"Body",
"selector":"#block-system-main .even"
},
{
"name":"Page Updated",
"selector":"time"
}
]
},
{
"url":"https://www.canada.ca/en/health-canada/corporate/about-health-canada/branches-agencies/health-products-food-branch/biologics-genetic-therapies-directorate.html",
"fields":[
{
"name":"Body",
"selector":"main h1#wb-cont+div"
},
{
"name":"Page Updated",
"selector":"#wb-dtmd time"
}
]
}
]
最后,我确实对PHP有更好的了解,因此也建议您为此目的使用PHP。
答案 0 :(得分:0)
您必须为要抓取的任何页面写蜘蛛
话虽如此,您发布的链接看起来像文章或报纸的链接。如果是这种情况,您可以签出 Newspaper3k ,这是一个python库,可从任何文章/报纸中提取内容。
这是怎么做的,它从文章中获取元数据并进行处理。由于大多数文章都是出于SEO目的而在元数据中提供信息,因此很可能会刮掉全世界几乎所有的文章。
进行检查