SAS:阅读PDF文件

时间:2011-07-15 09:17:13

标签: pdf binary sas

我正在寻找使用SAS读取PDF文件的方法。显然这不是基本功能,互联网上几乎没有。 (更不用说谷歌在搜索中使用PDF并不容易,同时也提供了PDF链接到其他东西的链接。)

唯一能找到的东西是人们在寻找从PDF导入数据到数据集的方法。对我来说,这甚至都不是必要的。我希望能够在一个大字符变量中读取PDF文件的内容。如果可能的话,能够读入文件的二进制数据甚至会更好。

这可能与SAS有关吗? (我让它在Access VBA中工作,但在SAS中找不到任何类似的方法。)

(最后,目的是将其转换为base64并将该base64字符串放入XML文档中。)

1 个答案:

答案 0 :(得分:5)

您可能无法将整个文件读入一个字符变量,因为字符变量的最大大小约为33 KB。但是,一次读取一行的简单方法如下:

%let pdfFileName = Test.pdf;
%let lineSize = 2000;

data base;
   format text_line $&lineSize..;
   infile "&pdfFileName" lrecl=&lineSize;
   input text_line $;
run;

这要求您提前了解最大记录长度,但是您可以编写其他代码以确定在读取文件之前的最大记录大小。在此示例中,每行文本都被读入一个名为“text_line”的字符变量中。从那里,您可以在INPUT行中使用RETAIN语句或双拖车(@@)来一次处理多行。 SAS网站上有大量关于如何从各种输入文件中读取和处理文本的文档。