我有一张PDF,其中包含表格,文字和一些图片。我想在PDF中的表格中提取表格。
现在正在手动查找页面中的表格。从那里我捕获该页面并保存到另一个PDF。
import PyPDF2
PDFfilename = "Sammamish.pdf" #filename of your PDF/directory where your PDF is stored
pfr = PyPDF2.PdfFileReader(open(PDFfilename, "rb")) #PdfFileReader object
pg4 = pfr.getPage(126) #extract pg 127
writer = PyPDF2.PdfFileWriter() #create PdfFileWriter object
#add pages
writer.addPage(pg4)
NewPDFfilename = "allTables.pdf" #filename of your PDF/directory where you want your new PDF to be
with open(NewPDFfilename, "wb") as outputStream:
writer.write(outputStream) #write pages to new PDF
我的目标是从整个PDF文档中提取表格。
答案 0 :(得分:29)
您可以使用documentation
您可以使用pdftotext将pdf转换为文本,然后使用python解析文本
您可以使用外部工具,将您的pdf文件转换为excel或csv ,然后使用所需的python模块打开excel / csv文件。
您也可以将pdf转换为图像文件,然后使用任何最新的OCR软件(从图片中自动重建表格)来获取数据
您的问题与以下内容类似:
此致
答案 1 :(得分:9)
此答案适用于遇到带有图像的pdf并需要使用OCR的任何人。我找不到可行的现成解决方案;没有什么可以让我达到所需的精度。
这是我发现可以使用的步骤。
使用https://poppler.freedesktop.org/中的pdfimages
将pdf页面转换为图像。
使用Tesseract来检测旋转,并使用ImageMagick mogrify
来解决旋转。
使用OpenCV查找和提取表。
使用OpenCV从表中查找并提取每个单元格。
使用OpenCV裁剪并清理每个单元格,以免产生干扰OCR软件的噪音。
使用Tesseract对每个单元格进行OCR。
将每个单元格的提取文本合并为所需的格式。
我写了一个python软件包,其中包含可以帮助完成这些步骤的模块。
回购:https://github.com/eihli/image-table-ocr
文档和来源:https://eihli.github.io/image-table-ocr/pdf_table_extraction_and_ocr.html
其中一些步骤不需要代码,它们利用了pdfimages
和tesseract
之类的外部工具。我将为需要代码的几个步骤提供一些简短的示例。
在弄清楚如何查找表时,此链接是一个很好的参考。 https://answers.opencv.org/question/63847/how-to-extract-tables-from-an-image/
import cv2
def find_tables(image):
BLUR_KERNEL_SIZE = (17, 17)
STD_DEV_X_DIRECTION = 0
STD_DEV_Y_DIRECTION = 0
blurred = cv2.GaussianBlur(image, BLUR_KERNEL_SIZE, STD_DEV_X_DIRECTION, STD_DEV_Y_DIRECTION)
MAX_COLOR_VAL = 255
BLOCK_SIZE = 15
SUBTRACT_FROM_MEAN = -2
img_bin = cv2.adaptiveThreshold(
~blurred,
MAX_COLOR_VAL,
cv2.ADAPTIVE_THRESH_MEAN_C,
cv2.THRESH_BINARY,
BLOCK_SIZE,
SUBTRACT_FROM_MEAN,
)
vertical = horizontal = img_bin.copy()
SCALE = 5
image_width, image_height = horizontal.shape
horizontal_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (int(image_width / SCALE), 1))
horizontally_opened = cv2.morphologyEx(img_bin, cv2.MORPH_OPEN, horizontal_kernel)
vertical_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (1, int(image_height / SCALE)))
vertically_opened = cv2.morphologyEx(img_bin, cv2.MORPH_OPEN, vertical_kernel)
horizontally_dilated = cv2.dilate(horizontally_opened, cv2.getStructuringElement(cv2.MORPH_RECT, (40, 1)))
vertically_dilated = cv2.dilate(vertically_opened, cv2.getStructuringElement(cv2.MORPH_RECT, (1, 60)))
mask = horizontally_dilated + vertically_dilated
contours, hierarchy = cv2.findContours(
mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE,
)
MIN_TABLE_AREA = 1e5
contours = [c for c in contours if cv2.contourArea(c) > MIN_TABLE_AREA]
perimeter_lengths = [cv2.arcLength(c, True) for c in contours]
epsilons = [0.1 * p for p in perimeter_lengths]
approx_polys = [cv2.approxPolyDP(c, e, True) for c, e in zip(contours, epsilons)]
bounding_rects = [cv2.boundingRect(a) for a in approx_polys]
# The link where a lot of this code was borrowed from recommends an
# additional step to check the number of "joints" inside this bounding rectangle.
# A table should have a lot of intersections. We might have a rectangular image
# here though which would only have 4 intersections, 1 at each corner.
# Leaving that step as a future TODO if it is ever necessary.
images = [image[y:y+h, x:x+w] for x, y, w, h in bounding_rects]
return images
这与2非常相似,因此我不会包含所有代码。我将参考的部分是对单元格进行排序。
我们要从左到右,从上到下识别单元格。
我们会找到最左上角的矩形。然后,我们将找到所有中心位于该左上角矩形的top-y和bottom-y值内的矩形。然后,我们将按矩形的中心x值对其进行排序。我们将从列表中删除这些矩形并重复。
def cell_in_same_row(c1, c2):
c1_center = c1[1] + c1[3] - c1[3] / 2
c2_bottom = c2[1] + c2[3]
c2_top = c2[1]
return c2_top < c1_center < c2_bottom
orig_cells = [c for c in cells]
rows = []
while cells:
first = cells[0]
rest = cells[1:]
cells_in_same_row = sorted(
[
c for c in rest
if cell_in_same_row(c, first)
],
key=lambda c: c[0]
)
row_cells = sorted([first] + cells_in_same_row, key=lambda c: c[0])
rows.append(row_cells)
cells = [
c for c in rest
if not cell_in_same_row(c, first)
]
# Sort rows by average height of their center.
def avg_height_of_center(row):
centers = [y + h - h / 2 for x, y, w, h in row]
return sum(centers) / len(centers)
rows.sort(key=avg_height_of_center)
答案 2 :(得分:6)
我建议您使用表格提取表格。将pdf作为参数传递给tabula api,它将以dataframe的形式返回表格。 pdf中的每个表格都作为一个数据帧返回。 这是我提取pdf的代码。
#the table will be returned in a list of dataframe,for working with dataframe you need pandas
import pandas as pd
import tabula
file = "filename.pdf"
path = 'C:\\Users\\Himanshu Poddar\\Desktop\\datathon\\Himachal\\' + file
df = tabula.read_pdf(path, pages = '1', multiple_tables = True)
print(df)
有关详情,请参阅我的repo。
答案 3 :(得分:3)
作为进一步研究的关键词:还可以选择使用zonal OCR。我在项目中使用了这个并取得了很好的成功。但是这种方法不适合高容量/高速,它需要为你需要的每个字段定义提取模板:
从好的方面来说,由于它在视觉上有效,因此适用于任何类型的表格(文本,图像,扫描)。
答案 4 :(得分:0)
该问题的2019年更新,因为每次我搜索“ python提取pdf表”时,我总是被引导到这里。
有一个名为camelot / excalibur的python解决方案
答案 5 :(得分:0)
如果您的pdf是基于文本的而不是扫描的文档(即,如果您可以在PDF查看器中单击并拖动以选择表格中的文本),则可以将camelot-py
模块与
import camelot
tables = camelot.read_pdf('foo.pdf')
然后,您可以选择保存表的方式(如csv,json,excel,html,sqlite),以及是否将输出压缩到ZIP存档中。
tables.export('foo.csv', f='csv', compress=False)
编辑:tabula-py
的出现速度大约是camelot-py
的6倍,因此应该改用它。
import camelot
import cProfile
import pstats
import tabula
cmd_tabula = "tabula.read_pdf('table.pdf', pages='1', lattice=True)"
prof_tabula = cProfile.Profile().run(cmd_tabula)
time_tabula = pstats.Stats(prof_tabula).total_tt
cmd_camelot = "camelot.read_pdf('table.pdf', pages='1', flavor='lattice')"
prof_camelot = cProfile.Profile().run(cmd_camelot)
time_camelot = pstats.Stats(prof_camelot).total_tt
print(time_tabula, time_camelot, time_camelot/time_tabula)
给予
1.8495559890000015 11.057014036000016 5.978199147125147
答案 6 :(得分:-3)
您可以尝试将pdf文件转换为excel文件,然后可以使用openpyxl库从excel文件中提取数据,将该文件添加到数组中,然后将数组转换为json。