我有一组PDF,每个PDF都嵌入了图像。这些图像通常由多个元素组成,如图形和子图像(生物细胞和微观样本),子图像通过低熵白色空间明显分开。
我已经能够提取存储在PDF中的图像,但我现在需要根据其中的可感兴趣点将这些图像进一步分割成单独的文件(感兴趣的点是矩形子图像和不图表/图表)。在“来自此出版物的图像”下可以看到其中一些PDF图像的示例here。
据我所知,像emguCV和aForge.net这样提供分水岭和k-means聚类的图书馆可能有助于我的努力,但由于我的图像处理知识有限,我不知道从哪里开始。此外,我在网上看到的大多数示例只是将分段蒙版叠加到原始图像上,而不是物理地分割文件。
非常感谢任何有关实现这一目标的指导或指示。