Question

尝试编写一个简单的脚本来为我提供表格的所有单元格内容。

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

url = 'http://127.0.0.1/html5css3'
driver = webdriver.Firefox()
driver.get(url)

table = driver.find_elements_by_xpath("//td//text()")

for t in table:
    print t

我还没有找到关于xpath语法的教程，涵盖从基础知识到高级语法。

示例输入：

<table border="1">
  <tr>
    <td>Product</td>
    <td>Vehicle</td>
    <td>Price</td>
    <td>Rating</td>
  </tr>
  <tr>
    <td>Duration</td>
    <td>Latex</td>
    <td>62</td>
    <td>5</td>
  </tr>
  <tr>
    <td>Super Paint</td>
    <td>Latex</td>
    <td>56</td>
    <td>4</td>
  </tr>
  <tr>
    <td>A-100</td>
    <td>Latex</td>
    <td>48</td>
    <td>3</td>
  </tr>
  <tr>
    <td>Macropoxy</td>
    <td>Epoxy</td>
    <td>62</td>
    <td>5</td>
  </tr>
</table>

Answer 1

当我运行你的程序时，我收到以下错误消息：

xpath表达式的结果＆＃34; // td // text（）＆＃34;是：[对象XrayWrapper [对象文本]]。它应该是一个元素。

果然，当我在lxml中运行该表达式时，我会得到一个字符串列表。

显然，.find_elements*只想返回WebElements;他们不想回信。

根据您的更高要求，尝试以下方法之一：

list_of_elements = driver.find_elements_by_xpath('//td') # return elements
list_of_text = [t.text for t in driver.find_elements_by_xpath('//td')] # return strings

虽然如果是我，我想在我的结果中有一些结构：

list_of_lists = [[td.text
                  for td in tr.find_elements_by_xpath('td')]
                  for tr in driver.find_elements_by_xpath('//tr')]
list_of_dicts = [dict(zip(list_of_lists[0],row)) for row in list_of_lists[1:]]

有了这个，您的目标很容易实现：

我最终的目标是做一些像PRINT td [2]其中td [4]大于3

print [row['Vehicle'] for row in list_of_dicts if int(row['Rating']) > 3]

这是一个可能做你想做的最终程序：

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

url = 'file:///tmp/x.html'
driver = webdriver.Firefox()
driver.get(url)

list_of_lists = [[td.text
                  for td in tr.find_elements_by_xpath('td')]
                  for tr in driver.find_elements_by_xpath('//tr')]
list_of_dicts = [dict(zip(list_of_lists[0],row)) for row in list_of_lists[1:]]

for t in list_of_dicts:
    if int(t['Rating']) > 3:
        print t['Vehicle']

如何在Selenium中选择表格单元格中的所有文本

1 个答案: