Question

我想使用python从.docx文件中的表中提取文本以进行进一步分析。我使用以下代码：

[PHPhotoLibrary requestAuthorization:^(PHAuthorizationStatus status) {
    switch (status) {
        case PHAuthorizationStatusAuthorized:
            NSLog(@"PHAuthorizationStatusAuthorized");
            break;
        case PHAuthorizationStatusDenied:
            NSLog(@"PHAuthorizationStatusDenied");
            break;
        case PHAuthorizationStatusNotDetermined:
            NSLog(@"PHAuthorizationStatusNotDetermined");
            break;
        case PHAuthorizationStatusRestricted:
            NSLog(@"PHAuthorizationStatusRestricted");
            break;
    }
}];

但似乎还有另一个＆＃34;表＆＃34;在此表的单元格中，因此我无法提取此部分（如附图所示）。当我使用上面的代码时，我无法获取＆＃34;是/否＆＃34;文本。

我也试过迭代遍历单元格，就像在表格中一样，但是我得到了单元格没有表格属性的错误。有什么建议吗？

The table looks like this

code behind table creation

感谢。

Answer 1

我有解决此问题的方法。我没有使用库 python-docx 从docx文件中提取文本，而是使用库 docx2txt （提取所有文本）和然后我只需要找到字符串中的特定单词。

text = docx2txt.process(file)

q = "Example1"
result = text[text.find(q)+len(q):].split()[0]

这给了我＆＃34;是＆＃34;或＆＃34;否＆＃34;来自Column2，对于Column1上的每个值（在上面的示例中，它提供是）。

如何从.docx文件中的表中提取文本？

1 个答案: