如何从Python selenium中的网页HTML表中获取数据

时间:2012-12-14 00:31:51

标签: python selenium bioinformatics

这就是我想要的,

链接“http://tinyurl.com/2bp99mm”

使用"EWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG"来爆破蛋白质序列。

结果网页上有一个表格链接列表。在Accesion专栏中,有一些我感兴趣的网页链接

我只想要第一个链接的文本以数字开头,第二个字符作为字母。在当前场景中,您将找到“3RGK_A”这是我想要的文本。

我知道我可以使用links.add(driver.FindElements(By.TagName("a")));但是如何实现链接的标准,以数字和第二个字符开头为字母。

我迷失了,对硒和蟒蛇来说是新手,但是想要快速学习......任何帮助都会得到应用

from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait 
import time
import numpy,random
import sys,re

driver = webdriver.Firefox()

driver.get("http://tinyurl.com/2bp99mm")
inputElement = driver.find_element_by_name( "QUERY" )
inputElement.send_keys("EWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG")##str(seq2))

inputElement.submit()
# the page is ajaxy so the title is originally this:
print driver.title

driver.implicitly_wait(30)

click_event = driver.find_element_by_link_text("3RGK_A")
click_event.click()

我希望程序找到“3RGK_A”是第一个链接并将值存储在对象中

1 个答案:

答案 0 :(得分:0)

begin
   $driver.find_element(:link, "3RGK_A")
   puts "I found the link"
rescue
   puts "I couldn't find the link"
end