我有一个用于我创建的和服桌面API的多个URL的列表,但对于我的生活,我无法弄清楚如何在数据输出(csv)中明确说明哪些行结果来自哪个源URL。
有没有办法将源URL作为另一列引入,以便在有100多个URL时轻松区分数据行?谢谢!
答案 0 :(得分:0)
它基于生成的源代码中的html和css,所以除非你在显式声明url的源代码中使用可靠值(例如wikipedias链接规范标记),否则你将继续使用scrape指数值。
如果一个页面的scrape不成功,它将不会跳过它,它仍然会创建一个带索引号的行。它也将按照输入的页面值的顺序排列,因此如果您使用的是预定的网址列表,您可以将网址列表自己编号,然后将这两个索引关联起来,如id。
否则,请使用您已知道的页面上的值来确认相关内容,例如ID号,产品编号或任何其他数据。