使用XPath python在同一td中的href中分离文本

时间:2018-10-24 14:31:40

标签: python-3.x selenium xpath web-crawler

我有一个这样的HTML网页:

<tr><td style="text-align:center;">7</td><td class="multi_row" style="line-height:15px;">Loaded on 'NYK LEO 303W' at Port of Loading<br> <a href="JavaScript:void(0);" style="line-height:15px;" title="NYK LEO" data-click="vesselPop" data-cd="NLZT0303W">NYK LEO 303W</a></td><td class="multi_row" style="line-height:15px;">VANCOUVER, BC ,CANADA<br>  <a href="JavaScript:void(0);" style="line-height:15px;" onclick="openLocationPopup('CAVAN01')" title="3891 DELTAPORT GCT">3891 DELTAPORT GCT</a></td><td class="ico_e">2018-10-26 23:30</td></tr>

我想在一个变量中分隔<a href>的字符串部分,并在另一个变量中使用纯文本,例如'bla bla bla'。 这是我到目前为止所做的:

event_path = driver.find_elements_by_xpath("//table[@id='detail']//tr/td[2]")
event = [cell.text for cell in event_path]

用于文本部分 这是用于

中的字符串的
vessel_path = driver.find_elements_by_xpath("//table[@id='detail']//tr/td[2]/a")
vessel = [cell.text.split(' ')[:2] for cell in vessel_path]

split(' ')[:2]的数据是这样的:NYK LEO 303W,我只需要单词而不是数字(使用正则表达式可以更可靠地实现)

3 个答案:

答案 0 :(得分:2)

尝试在下面使用,仅从td中获取第一个文本节点

event = [driver.execute_script('return arguments[0].firstChild.textContent;', cell).strip() for cell in event_path]

答案 1 :(得分:0)

请尝试以下代码:

elements = driver.find_elements_by_classname("multi_row")

for element in elements
    print(element.text)

答案 2 :(得分:0)

在您的情况下,我看到您期望的船只已经在锚点的title属性中。

如果是有效案例,那么您可以直接从诸如

vessel_path = driver.find_elements_by_xpath("//table[@id='detail']//tr/td[2]/a")
vessel = [cell.get_attribute("title") for cell in vessel_path]