您好我有csv文件,其中包含公司网址列表,如www.google.com,www.ibm.com .....
在这里,我想为csv文件中的每个网址获取contactus或aboutus页面网址(示例http://www.google.com/contact)我有一个想法检查具有以下模式的链接(联系我们,关于我们,关于,位置)。
如果找不到任何这些,请标记该URL并将其写入日志文件。如果找到模式,只需打印地址(它用于其他一些过程)
答案 0 :(得分:2)
我建议使用Beautiful Soup来解析页面。另一种选择是在Mechanical Turk上设置一个HIT。
答案 1 :(得分:0)