Question

首先，我是Python的新手，所以请多多包涵。我有一个PDF文件，其左侧为西班牙语，右侧为德语。有时也有一些例句来说明如何使用该句子。 PDF的外观如下：

我想编写一个Python脚本，该脚本接受所有词汇，翻译和例句（以及翻译），并获得包含四列的CSV文件。 CSV文件应如下所示：

如果没有例句，我可以逐行阅读，效果很好。但是，如果有例句，则该行看起来像这样：

Für Senioren gibt es bei   Hay descuentos en los viajes
Reisen Ermässigung.   para la tercera edad.

西班牙语句子应如下所示：Hay descuentos en los viajes para la tercera edad. 德语句子应如下所示：Für Senioren gibt es bei Reisen Ermässigung. 理想情况下，应在“基本”一词中添加两个例句，以便在上面的示例中将其添加到“ la tercera edad” /“ die Senioren”中。对于“ la tercera edad”，应该有四列。有时，没有例句。在那种情况下，我只需要两列。

这就是我所做的：

import pdfplumber

pdf = pdfplumber.open('spanish.pdf')
page = pdf.pages[23]
text = page.extract_text()

# Read each line
for line in text.split('\n'):
    print(line)

打印line输出以下内容：

Für Senioren gibt es bei   Hay descuentos en los viajes
Reisen Ermässigung.   para la tercera edad.

也许可以用tabuly-py来做到这一点？我将不胜感激。

干杯。

语言PDF：如何将例句添加到源词并添加到CSV

0 个答案: