Question

我正在处理一些HTML文档，我需要从这些文档中获取表，其中包含某些Column标题中的某些文本。在这种情况下，我想要获取完整的表。有人可以建议一种方法，我可以用Python做到这一点吗？谢谢！

我对Python比较陌生。我尝试将文本转换为列表格式，然后将元素与输入进行比较。但是输出变得有点荒谬，因为它返回的是列表而不是表。所以正在寻找一个建议。我正在添加代码

from selenium import webdriver
path = input("Enter path of the html file")
driver=webdriver.Chrome("C:\\chromedriver.exe")
driver.maximize_window()
driver.get(path)
table = driver.find_elements_by_css_selector("*")
for i in range(1, len(table)):
    if(table[i].text == "Date" and table[i+1].text == "Name" and table[i+2].text == "Country"):

        a = table[i].get_attribute("class")
        print(a)
        break
table1 = driver.find_elements_by_class_name(a)
table2 = driver.find_elements_by_class_name("cls_026")
j=1
k=1    
for i in range(1, len(table)):    
    if(table[i]==table1[j]):
        print(table[i].text)
        j=j+2

    elif(table[i]==table2[k]):
        print(table[i].text)
        k=k+2

print("the end")

Answer 1

我假设您要从文本文件中读取表格？然后numpy将是你的解决方案。一个简单的例子：

    >>> np.loadtxt('data_table.txt', skiprows=1)
    array([[ 0.2536, 0.1008, 0.3857],
    [ 0.4839, 0.4536, 0.3561],
    [ 0.1292, 0.6875, 0.5929],
    [ 0.1781, 0.3049, 0.8928],
    [ 0.6253, 0.3486, 0.8791]])

有关更多参考资料，您可以查看此page。

使用Python

1 个答案: