我需要从此网站提取所有电子邮件地址: http://www.danskeark.dk/Medlemsindex.aspx 要导航到地址,请转到字母A,B,C,D ......然后按公司。
我还需要将找到的地址导出为excel。
我如何以最简单的方式做到这一点?
答案 0 :(得分:2)
使用新目录中的wget镜像网站
wget -mk --domains danskeark.dk danskeark.dk
grep所有邮件地址到该目录中父目录中的csv
find . | xargs grep -E -o "\b[a-zA-Z0-9.-]+@[a-zA-Z0-9.-]+\.[a-zA-Z0-9.-]+\b" > ../out.csv
答案 1 :(得分:0)
这是一个用ahk制作的小爬虫(适用于Windows的免费开源脚本语言)
所以你需要从上面的链接下载
我使用了一个可见的IE对象来保持它的打开状态,使它有点慢(5-7分钟)但是如果你只需要它一次就嘿......
url := "http://www.danskeark.dk/Medlemsindex.aspx"
wb := ComObjCreate("InternetExplorer.Application")
wb.visible := true
virksomheds_Urls := []
chars := "ABCDEFGHIJKLMNOPQRSTUVWXYZÆØÅ0123456789"
loop, parse, chars
{
index := "?index=" A_LoopField
wb.Navigate(url . index)
while wb.readyState!=4 || wb.document.readyState != "complete" || wb.busy
continue
pages := wb.document.getElementById("pagesTop").getElementsByTagName("A").length - 1
loop % pages
{
wb.Navigate(url . index . "&pg=" A_index)
while wb.readyState!=4 || wb.document.readyState != "complete" || wb.busy
continue
loop % (links := wb.document.getElementsByTagName("UL")[1].getElementsByTagName("A")).length
{
virksomheds_Urls.Insert(links[A_index-1].href)
}
}
}
for, key, val in virksomheds_Urls
{
wb.Navigate(val)
while wb.readyState!=4 || wb.document.readyState != "complete" || wb.busy
continue
csv .= (Email := wb.document.getElementById("divContactBox").GetelementsByTagName("A")[0].innertext) ","
}
FileAppend, %csv%, Emails_csv.csv
run, excel.exe Emails_csv.csv
return