在Python中使用多个页面刮取ajax搜索引擎

时间:2016-01-19 16:06:34

标签: python ajax screen-scraping

我正在试图废除韩国专利局。但是,搜索引擎使用ajax。我需要什么来获得我的第一个结果?然后我将如何废弃后续页面? 假设我正在搜索关键字电视专利。

这是我的开始代码。 任何提示都非常受欢迎

import urllib
import re


url = 'http://engpat.kipris.or.kr/engpat/searchLogina.do?next=MainSearch'
acct = open("results.txt", "w")
regex= '<title>(.+?)</title>'
pattern = re.compile(regex)
htmlfile = urllib.urlopen(url)
htmltext = htmlfile.read()
title= re.findall(pattern,htmltext)
acct.write(title)

谢谢!

1 个答案:

答案 0 :(得分:0)

有很多方法可以做到这一点。我推荐的方法之一是使用Selenium来执行此任务,每个页面使用XPath来选择下一个页面元素。查看Selenium文档以获取更多示例。正则表达式不是html抓取的方式...