首先,我是Python的新手,所以请多多包涵。 我有一个PDF文件,其左侧为西班牙语,右侧为德语。有时也有一些例句来说明如何使用该句子。 PDF的外观如下:
我想编写一个Python脚本,该脚本接受所有词汇,翻译和例句(以及翻译),并获得包含四列的CSV文件。 CSV文件应如下所示:
如果没有例句,我可以逐行阅读,效果很好。但是,如果有例句,则该行看起来像这样:
Für Senioren gibt es bei Hay descuentos en los viajes
Reisen Ermässigung. para la tercera edad.
西班牙语句子应如下所示:Hay descuentos en los viajes para la tercera edad.
德语句子应如下所示:Für Senioren gibt es bei Reisen Ermässigung.
理想情况下,应在“基本”一词中添加两个例句,以便在上面的示例中将其添加到“ la tercera edad” /“ die Senioren”中。对于“ la tercera edad”,应该有四列。有时,没有例句。在那种情况下,我只需要两列。
这就是我所做的:
import pdfplumber
pdf = pdfplumber.open('spanish.pdf')
page = pdf.pages[23]
text = page.extract_text()
# Read each line
for line in text.split('\n'):
print(line)
打印line
输出以下内容:
Für Senioren gibt es bei Hay descuentos en los viajes
Reisen Ermässigung. para la tercera edad.
也许可以用tabuly-py
来做到这一点?我将不胜感激。
干杯。