我有大约5 GB的html数据,我想处理这些数据以查找指向一组网站的链接并执行一些额外的过滤。现在我为每个站点使用简单的正则表达式并迭代它们,搜索匹配。在我的情况下,链接可以在“a”标签之外,并且在很多方面都不是很好形成(例如链接中间的“\ n”),所以我尽量抓住尽可能多的“链接”并在以后检查它们其他脚本(所以没有BeatifulSoup \ lxml \ etc)。问题是我的脚本很慢,所以我正在考虑任何加速它的方法。我正在编写一套测试来检查不同的方法,但希望得到一些建议:)
现在我正在考虑获取所有链接而不首先过滤(可能使用C模块或独立应用程序,它不使用正则表达式而是使用简单搜索来获取每个链接的开始和结束)然后使用正则表达式来匹配我需要。
答案 0 :(得分:1)
出路。