如何从多个未知数据类型/格式网站中抓取网页数据?

时间:2016-05-09 05:45:18

标签: web-scraping

在内联css,jquery,第三方脚本,iframe,无法匹配的标签,随机标签等之前,网页抓取过去很“简单”。

如果没有我基本上“创建”谷歌搜索引擎从头开始作为一个人......(以及数十万小时内的数十万小时)...是否有任何好的预制软件解决方案可以提取通用数据类型? (我猜我需要付钱买东西,因为看看我需要提取的东西我去“bleah”)。

我需要从几千个网站中提取数据内容(文本,日期,链接等),而不知道它是什么格式。(有些是动态动态生成的,有些包含在iframe中,有些是隐藏的在混淆的JavaScript代码等等)。只是一个大混乱,我正在试图弄清楚如何从中做出好的订单,而无需手动访问每个网站并进行切割和放大。糊。

有什么想法吗?谢谢!

0 个答案:

没有答案