我正在试图废除韩国专利局。但是,搜索引擎使用ajax。我需要什么来获得我的第一个结果?然后我将如何废弃后续页面? 假设我正在搜索关键字电视专利。
这是我的开始代码。 任何提示都非常受欢迎
import urllib
import re
url = 'http://engpat.kipris.or.kr/engpat/searchLogina.do?next=MainSearch'
acct = open("results.txt", "w")
regex= '<title>(.+?)</title>'
pattern = re.compile(regex)
htmlfile = urllib.urlopen(url)
htmltext = htmlfile.read()
title= re.findall(pattern,htmltext)
acct.write(title)
谢谢!
答案 0 :(得分:0)
有很多方法可以做到这一点。我推荐的方法之一是使用Selenium来执行此任务,每个页面使用XPath来选择下一个页面元素。查看Selenium文档以获取更多示例。正则表达式不是html抓取的方式...