我正在尝试使用pdfbox从pdf中提取所有信息的文本。除了颜色,我得到了我想要的所有信息。我尝试了不同的方法来获得fontcolor(包括Getting Text Colour with PDFBox)。但不行。现在我从PageDrawer类的pdfBox中复制了代码。但是那时RGB值也不正确。
protected void processTextPosition(TextPosition text) {
Composite com;
Color col;
switch(this.getGraphicsState().getTextState().getRenderingMode()) {
case PDTextState.RENDERING_MODE_FILL_TEXT:
com = this.getGraphicsState().getNonStrokeJavaComposite();
int r = this.getGraphicsState().getNonStrokingColor().getJavaColor().getRed();
int g = this.getGraphicsState().getNonStrokingColor().getJavaColor().getGreen();
int b = this.getGraphicsState().getNonStrokingColor().getJavaColor().getBlue();
int rgb = this.getGraphicsState().getNonStrokingColor().getJavaColor().getRGB();
float []cosp = this.getGraphicsState().getNonStrokingColor().getColorSpaceValue();
PDColorSpace pd = this.getGraphicsState().getNonStrokingColor().getColorSpace();
break;
case PDTextState.RENDERING_MODE_STROKE_TEXT:
System.out.println(this.getGraphicsState().getStrokeJavaComposite().toString());
System.out.println(this.getGraphicsState().getStrokingColor().getJavaColor().getRGB());
break;
case PDTextState.RENDERING_MODE_NEITHER_FILL_NOR_STROKE_TEXT:
//basic support for text rendering mode "invisible"
Color nsc = this.getGraphicsState().getStrokingColor().getJavaColor();
float[] components = {Color.black.getRed(),Color.black.getGreen(),Color.black.getBlue()};
Color c1 = new Color(nsc.getColorSpace(),components,0f);
System.out.println(this.getGraphicsState().getStrokeJavaComposite().toString());
break;
default:
System.out.println(this.getGraphicsState().getNonStrokeJavaComposite().toString());
System.out.println(this.getGraphicsState().getNonStrokingColor().getJavaColor().getRGB());
}
我正在使用上面的代码。获得的价值是 r = 0,g = 0,b = 0,cosp对象内部值为[0.0],内部pd对象数组= null,colorSpace = null。和RGB值始终为-16777216。请帮我。提前谢谢。
答案 0 :(得分:5)
我尝试了您发布的链接中的代码,它对我有用。我得到的颜色是148.92,179.01001和214.965。我希望我可以给你我的PDF工作,也许我将它存储在SO外部?我的PDF使用了一种浅蓝色,似乎很匹配。它只是在Word 2010中创建并导出的一页文本,没有太强烈。
一些建议......
这就是我现在所能想到的全部,否则我有pdfbox和fontbox的1.7.1版本,就像我说的那样,我几乎跟着你给出的链接。
修改强>
根据我的评论,这里可能是一种为color.pdf
等pdf文件进行微创的方式?
在PDFStreamEngine.java
方法的processOperator
中,可以在try块中执行
if (operation.equals("RG")) {
// stroking color space
System.out.println(operation);
System.out.println(arguments);
} else if (operation.equals("rg")) {
// non-stroking color space
System.out.println(operation);
System.out.println(arguments);
} else if (operation.equals("BT")) {
System.out.println(operation);
} else if (operation.equals("ET")) {
System.out.println(operation);
}
这将显示信息,然后由您根据需要处理每个部分的颜色信息。以下是在color.pdf
...
BT
rG
[COSInt(1), COSInt(0), CosInt(0)]
RG
[COSInt(1), COSInt(0), CosInt(0)]
ET
BT
ET
BT
rG
[COSFloat{0.573}, COSFloat{0.816}, COSFloat{0.314}]
RG
[COSFloat{0.573}, COSFloat{0.816}, COSFloat{0.314}]
ET
......
在上面的输出中你会看到一个空的BT ET部分,这是一个标记为DEVICEGRAY的部分。所有其他的给出了R,G和B分量的[0,1]值
答案 1 :(得分:5)
我也最终做了这样的事情。粘贴下面的代码,希望它可以帮助某人。
import java.io.IOException;
import java.util.List;
import org.apache.pdfbox.exceptions.COSVisitorException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.edit.PDPageContentStream;
import org.apache.pdfbox.pdmodel.font.PDFont;
import org.apache.pdfbox.pdmodel.font.PDType1Font;
import org.apache.pdfbox.pdmodel.graphics.PDGraphicsState;
import org.apache.pdfbox.util.PDFTextStripper;
import org.apache.pdfbox.util.ResourceLoader;
import org.apache.pdfbox.util.TextPosition;
public class Parser extends PDFTextStripper {
public Parser() throws IOException {
super(ResourceLoader.loadProperties(
"org/apache/pdfbox/resources/PageDrawer.properties", true));
super.setSortByPosition(true);
}
public void parse(String path) throws IOException{
PDDocument doc = PDDocument.load(path);
List<PDPage> pages = doc.getDocumentCatalog().getAllPages();
for (PDPage page : pages) {
this.processStream(page, page.getResources(), page.getContents().getStream());
}
}
@Override
protected void processTextPosition(TextPosition text) {
try {
PDGraphicsState graphicsState = getGraphicsState();
System.out.println("R = " + graphicsState.getNonStrokingColor().getJavaColor().getRed());
System.out.println("G = " + graphicsState.getNonStrokingColor().getJavaColor().getGreen());
System.out.println("B = " + graphicsState.getNonStrokingColor().getJavaColor().getBlue());
}
catch (IOException ioe) {}
}
public static void main(String[] args) throws IOException, COSVisitorException {
Parser p = new Parser();
p.parse("/Users/apple/Desktop/123.pdf");
}
}
答案 2 :(得分:3)
我在我的一个维护程序中找到了一些代码
我不知道它对你有用,请试一试。
另请查看此链接http://pdfbox.apache.org/apidocs/org/apache/pdfbox/pdmodel/common/class-use/PDStream.html
它可能对你有帮助
PDDocument doc = null;
try {
doc = PDDocument.load("C:/Path/To/Pdf/Sample.pdf");
PDFStreamEngine engine = new PDFStreamEngine(ResourceLoader.loadProperties("org/apache/pdfbox/resources/PageDrawer.properties"));
PDPage page = (PDPage)doc.getDocumentCatalog().getAllPages().get(0);
engine.processStream(page, page.findResources(), page.getContents().getStream());
PDGraphicsState graphicState = engine.getGraphicsState();
System.out.println(graphicState.getStrokingColor().getColorSpace().getName());
float colorSpaceValues[] = graphicState.getStrokingColor().getColorSpaceValue();
for (float c : colorSpaceValues) {
System.out.println(c * 255);
}
}
finally {
if (doc != null) {
doc.close();
}
答案 3 :(得分:1)
使用pdfbox verson 2.0+时,必须在覆盖的PDFTextStripper的构造函数中选择这些运算符:
addOperator(new SetStrokingColorSpace());
addOperator(new SetNonStrokingColorSpace());
addOperator(new SetStrokingDeviceCMYKColor());
addOperator(new SetNonStrokingDeviceCMYKColor());
addOperator(new SetNonStrokingDeviceRGBColor());
addOperator(new SetStrokingDeviceRGBColor());
addOperator(new SetNonStrokingDeviceGrayColor());
addOperator(new SetStrokingDeviceGrayColor());
addOperator(new SetStrokingColor());
addOperator(new SetStrokingColorN());
addOperator(new SetNonStrokingColor());
addOperator(new SetNonStrokingColorN());
只有这样getGraphicsState()才会返回正确的信息。
答案 4 :(得分:0)
这里是PdfBox - How to load color from text,它应该能够用比这些其他答案更简单的解决方案来回答您的问题:)