我有数千个网址列表。我想知道如何抓取联系页面并从“联系我们”页面的URL中删除联系人数据?例如地址,电话和电子邮件。
任何想法都会有所帮助。
我正在考虑使用正则表达式;他们会为电话和电子邮件工作,但不能抓地址。
答案 0 :(得分:1)
简短答案是没有一种无所不能的方法来做这件事......它涉及一些基于您试图抓取的页面的人类智能。
(1)收集信息(HTML)
由于您已将范围缩小到URL列表。实现它的正确方法是使用您拥有的任何工具来首先收集HTML页面。因此,每次调整代码的“正则表达式等”时,都会将所有HTML文件放在本地。您无需花费其他时间来访问其服务器来收集数据。 注意,这取决于您的目的,在存储HTML文件之前阅读服务条款
(2)解析
现在您已将信息存储在笔记本电脑/服务器中。现在只是如何用HTML解析它的问题。我对C#以及您的页面列表的外观不太了解。如果您的联系页面实际上来自同一个网站...说社交媒体网页将遵循相同的HTML设计(这是最好的情况),您可以使用一些HTML解析器(我在python中使用beautifulsoup)轻松定位标签并获取该标记内的内容。然后,您只需将该函数应用于已存储的所有HTML并完成作业。
如果这些网址都来自不同的网站,那么你只需要调整你的功能和人类识别你的解析结果是否足够好并继续尝试....