我试图获取PDF文档中的页数。我的一些PDF是用Word创建的(保存为PDF),其中一些是Xeroxed到目录中(不确定这是否重要)。
经过数小时的研究,我发现这说起来容易做起来难。 页面计数很少回来给我正确的页数,即使大多数PDF确实在二进制代码中有/Count
。
例如,我使用了以下代码;它应该以二进制模式打开文档,查找/Count
或/N
并获取它旁边的数字,它应该给我页数。
Public Sub pagecount(sfilename As String)
On Error GoTo a
Dim nFileNum As Integer
Dim s As String
Dim c As Integer
Dim pos, pos1 As Integer
pos = 0
pos1 = 0
c = 0
' Get an available file number from the system
nFileNum = FreeFile
'OPEN the PDF file in Binary mode
Open sfilename For Binary Lock Read Write As #nFileNum
' Get the data from the file
Do Until EOF(nFileNum)
Input #1, s
c = c + 1
If c <= 10 Then
pos = InStr(s, "/N")
End If
pos1 = InStr(s, "/count")
If pos > 0 Or pos1 > 0 Then
Close #nFileNum
s = Trim(Mid(s, pos, 10))
s = Replace(s, "/N", "")
s = Replace(s, "/count", "")
s = Replace(s, " ", "")
s = Replace(s, "/", "")
For i = 65 To 125
s = Replace(s, Chr(i), "")
Next
pages = Val(Trim(s))
If pages < 0 Then
pages = 1
End If
Close #nFileNum
Exit Sub
End If
'imp only 1000 lines searches
If c >= 1000 Then
GoTo a
End If
Loop
Close #nFileNum
Exit Sub
a:
Close #nFileNum
pages = 1
Exit Sub
End Sub
但是,大多数情况下,它默认为pages = 1(在:)下。
我还将其更新为10000,以确保它达到/Count
行,但它仍然没有给我正确的计数。
If c >= 10000 Then
GoTo a
End If
我也遇到了这个reddit
有没有其他方法可以做到这一点,我可以在我的应用程序中使用它?
非常感谢任何帮助。
背景:
这是针对旧版vb6应用,我尝试让用户操作PDF文件。我添加了一个ListBox,它显示特定目录中的所有PDF文档。当用户双击任何一个文件时,我将其显示在应用程序内的WebBrowser组件中。
我仔细检查了页数,而/ Count显示了三个文档中每个文档的正确页数。
答案 0 :(得分:1)
正则表达式有限制,但我更喜欢用它们来搜索字符串,我认为这是一个使用它的好地方。您可能想要使用该模式,因为我只需要一点点测试就可以相对快速地完成。
将Microsoft VBScript Regular Expressions 5.5的引用添加到项目中。然后你可以尝试下面的示例代码。
Private Sub Command1_Click()
Dim oRegEx As RegExp
Dim fHndl As Integer
Dim sContents As String
Dim oMatches As MatchCollection
On Error GoTo ErrCommand1_Click
'Open and read in the file
fHndl = FreeFile
Open some pdf file For Binary Access Read As fHndl
sContents = String(LOF(fHndl), vbNull)
Get #fHndl, 1, sContents
Close #fHndl 'We have the file contents so close it
fHndl = 0
'Instantiate and configure the RegEx
Set oRegEx = New RegExp
oRegEx.Global = True
oRegEx.Pattern = "((?:/Count )(\d+))"
Set oMatches = oRegEx.Execute(sContents)
'Look for a match
If oMatches.Count > 0 Then
If oMatches(0).SubMatches.Count > 0 Then
MsgBox CStr(oMatches(0).SubMatches(0)) & " Pages"
End If
End If
Exit Sub
ErrCommand1_Click:
Debug.Print "Error: " & CStr(Err.Number) & ", " & Err.Description
If Not oRegEx Is Nothing Then Set oRegEx = Nothing
If Not oMatches Is Nothing Then Set oMatches = Nothing
End Sub
RegEx模式的解释:
()
创建了一个组
括号内的?:
使得组无法捕获
<</Linearized
是一个文字字符串
.*
贪心量词,匹配任何字符0次或更多次
/N
文字字符串
\d+
贪婪的限定符,匹配数字1次或更多次
>>
文字字符串