我正在尝试从单个PDF文件中获取Highquality图像,因为我将使用Tesseract从此图像中提取文本。
问题是,当我尝试将PDF转换为.PNG或.tif文件(我认为是最优质的图像格式)时,它会返回一张完整的绿色全图片而没有文字和内容。
我的代码有什么问题?我必须使用框架3.5。
The output image from one page is here
这是我在这个项目中使用的代码。
MagickReadSettings settings = new MagickReadSettings();
// Settings the density to 300 dpi will create an image with a better quality
settings.Density = new Density(300, 300);
using (MagickImageCollection images = new MagickImageCollection())
{
// Add all the pages of the pdf file to the collection
images.Read(@"C:\Users\v_perez\Documents\Test\PDF\Input\574932_1.pdf", settings);
int page = 1;
foreach (MagickImage image in images)
{
// Write page to file that contains the page number
image.Write(@"C:\Users\v_perez\Documents\Test\PDF\Images\Magick" + page + ".png");
// Writing to a specific format works the same as for a single image
image.Format = MagickFormat.Ptif;
image.Write(@"C:\Users\v_perez\Documents\Test\PDF\Images\Magick" + page + ".tif");
page++;
}
}