语言PDF:如何将例句添加到源词并添加到CSV

时间:2020-06-23 10:38:59

标签: python pandas tabula tabula-py

首先,我是Python的新手,所以请多多包涵。 我有一个PDF文件,其左侧为西班牙语,右侧为德语。有时也有一些例句来说明如何使用该句子。 PDF的外观如下:

Example of PDF

我想编写一个Python脚本,该脚本接受所有词汇,翻译和例句(以及翻译),并获得包含四列的CSV文件。 CSV文件应如下所示:

Example of ideal CSV

如果没有例句,我可以逐行阅读,效果很好。但是,如果有例句,则该行看起来像这样:

Für Senioren gibt es bei   Hay descuentos en los viajes
Reisen Ermässigung.   para la tercera edad.

西班牙语句子应如下所示:Hay descuentos en los viajes para la tercera edad. 德语句子应如下所示:Für Senioren gibt es bei Reisen Ermässigung. 理想情况下,应在“基本”一词中添加两个例句,以便在上面的示例中将其添加到“ la tercera edad” /“ die Senioren”中。对于“ la tercera edad”,应该有四列。有时,没有例句。在那种情况下,我只需要两列。

这就是我所做的:

import pdfplumber

pdf = pdfplumber.open('spanish.pdf')
page = pdf.pages[23]
text = page.extract_text()

# Read each line
for line in text.split('\n'):
    print(line)

打印line输出以下内容:

Für Senioren gibt es bei   Hay descuentos en los viajes
Reisen Ermässigung.   para la tercera edad.

也许可以用tabuly-py来做到这一点?我将不胜感激。

干杯。

0 个答案:

没有答案