Question

我正在试图废除韩国专利局。但是，搜索引擎使用ajax。我需要什么来获得我的第一个结果？然后我将如何废弃后续页面？假设我正在搜索关键字电视专利。

这是我的开始代码。任何提示都非常受欢迎

import urllib
import re


url = 'http://engpat.kipris.or.kr/engpat/searchLogina.do?next=MainSearch'
acct = open("results.txt", "w")
regex= '<title>(.+?)</title>'
pattern = re.compile(regex)
htmlfile = urllib.urlopen(url)
htmltext = htmlfile.read()
title= re.findall(pattern,htmltext)
acct.write(title)

谢谢！

Answer 1

有很多方法可以做到这一点。我推荐的方法之一是使用Selenium来执行此任务，每个页面使用XPath来选择下一个页面元素。查看Selenium文档以获取更多示例。正则表达式不是html抓取的方式...

在Python中使用多个页面刮取ajax搜索引擎

1 个答案: