Question

我正在尝试提取PDF文件的各个部分，以便在文本分析中使用。我尝试使用pdfextract来完成此任务。但是，诸如

之类的命令

pdf-extract extract --regions --no-lines Bauer2010.pdf

仅提取区域的(x,y)坐标，如下例所示。

<region x="226.32" y="750.47" width="165.57" height="6.37"
line_height="6.37" font="BGBFHO+AdvP4DF60E">Patient Education and
Counseling 79 (2010) 315-319</region>

可以提取PDF的各个部分吗？

Answer 1

查看http://text-analyzer.com您可以上传PDF文件的位置，并将其转换为适合自然语言处理的格式。一旦转换成文本文件，它就可以处理文件，并通过情感分析将其分解为句子。它有超过40种不同类型的句子视图，您可以在其中标记部分。那些标记的句子可以导出。

提取PDF部分

1 个答案: