我编写了一个获取源代码的程序,解析htmlsoup,获取来自<p>
标记和<hx>
标记的文本内容。然后进一步提取关键字的过程。此外,我即将提取图像源和替代文字。
通过python CGI编程,该程序在浏览器中运行。正如我上面列出的那样,有很多任务要做,所以直到函数(写入提取代码)返回浏览器继续加载。这很明显,程序在返回或打印某些内容之前会等待该函数。 下面的循环持续很长时间......浏览器继续加载
[has imported beautifulsoup and termextractor]
def getContent(website):
//made soup using beautifulsoup
for para in soup.findAll('p'):
print "Paragraph : ", para.text
print "<hr/>"
keyword = extractor(para.text)
for key in keyword:
print "Keyword : ", key[0]
print "<br/>"
如何减少执行时间?在后台运行程序?还是多线程解决了这个问题?
我可以为这个脚本做些什么,因为还有很多任务要做,我必须为网站中的图像做同样的事情,而且我正在计划所有找到的锚标签重复这个过程。