我必须从数千个网页中系统地提取大学名称,联系电话,电子邮件ID等信息。这样做有什么脚本吗?
完成方案:我使用wget下载了包含各个学院信息的网页。每个大学有大约5000个网页,其中包含有关他们的信息,但我只关心他们的名字,电子邮件ID,网站和联系电话。我需要将提取的信息以系统的顺序保存在合适的文件中。 如何提取信息?我怎么用grep来做呢?有没有更好的方法呢?哪些脚本可用于提取信息? PS:我使用Ubuntu和Kali linux。我是新手。需要专家的帮助。
答案 0 :(得分:0)
我假设你有一个目录中的所有文件,“cd”到那个和:
grep -i -e "Name" -e "email" -e "http" ./*
并在看到结果时进行改进。这将写入你的屏幕,最后添加:
>> my_collected_things.txt
让它变得更好。