python-docx从dropdownlist获取信息(在表格中)

时间:2017-01-09 14:51:16

标签: python python-docx

我有一个包含多个表的docx文件,我希望从列表中的表中获取所有信息(列表名为' alletabellen')。 使用下面的脚本,我几乎收到了表中的所有信息,除了下拉列表中的某些变量的值(在某些表格单元格中)。 这些单元格的值在我的列表中保持为空(例如,值' 1.2'来自变量'数字:',请参阅:https://s30.postimg.org/477j8z6ch/table.png我没有得到我的清单中的价值)。

是否也可以从这些变量中获取信息?

import docx

bestand = docx.Document('somefile.docx')
tabellen = bestand.tables

alletabellen = []     
for i, tabel in enumerate(tabellen):
    for row in tabellen[i].rows:
        for cell in row.cells:
            for paragraph in cell.paragraphs:
                alletabellen.append(paragraph.text)

更新

我找到了一个解决方案(感谢scanny指出了我正确的方向)。 我没有意识到docx文件实际上是一个带有xml文件的压缩文件,其中包含所有文本。我使用模块zipfile提取docx和模块bs4来查找所有下拉列表标记(' ddList')并将数据放入列表中。在我的文档中有12个下拉列表,我只需要其中的3个(其中一个是'数字:'来自屏幕截图,这是文档中的第一个下拉列表)。

import docx
import zipfile
from bs4 import BeautifulSoup

doc = 'somefile.docx'

bestand = docx.Document(doc)
tabellen = bestand.tables

#get data from all the "normal" fields

alletabellen = []     
for i, tabel in enumerate(tabellen):
    for row in tabellen[i].rows:
        for cell in row.cells:
            for paragraph in cell.paragraphs:
                alletabellen.append(paragraph.text)

#get data from all the dropdown lists

document = zipfile.ZipFile(doc)
xml_data = document.read('word/document.xml')
document.close()

soup = BeautifulSoup(xml_data, 'xml')
gegevens = soup.findAll('ddList')     #search dropdownlists (n = 12)

dropdownlist = []
dropdownlistdata = []

for i in gegevens:
    dropdownlist.append(i.find('result'))

#convert to string for if statements
number = str(dropdownlist[0])
job = str(dropdownlist[1])
vehicle = str(dropdownlist[7])

if number == '<w:result w:val="1"/>' :
    dropdownlistdata.append('0,3')
elif number == '<w:result w:val="2"/>' :
    dropdownlistdata.append('1,2')
elif number == '<w:result w:val="3"/>' :
    dropdownlistdata.append('onbekend')
else:
    dropdownlistdata.append('geen')

if job  == '<w:result w:val="1"/>' :
    dropdownlistdata.append('nee')
else:
    dropdownlistdata.append('ja')

if vehicle == '<w:result w:val="1"/>' :
    dropdownlistdata.append('nee')
else:
    dropdownlistdata.append('ja')

#show data
print alletabellen
print dropdownlistdata

1 个答案:

答案 0 :(得分:2)

“1.2”没有从.text调用返回的原因很可能是它包含在某种“容器”XML中,使其行为类似于表单字段。

第一步是检查XML,这样你就可以看到你的反对意见了。然后你会写一些代码来找到埋藏的内容。

opc-diag可以帮助您检查XML: http://opc-diag.readthedocs.io/en/latest/index.html

您希望查看document.xml部分。

如果您将文档缩小到仅显示此行为的最小值,则可以更轻松地找到您需要处理的部分。

如果您可以发布表格中该部分的XML,我可以进一步指导您。