我正在尝试从PDF文件中查找文本,并在excel中获取与该行关联的所有单词。从网站上获得了一些语法,它将逐字阅读PDF并找到匹配的文本并获得下一个单词,但我对这种方法的问题是匹配文本旁边的值变化,可能是要捕获的单个或多个单词。 例如:
印刷:Arun Ragavan
印刷:阿伦
在这里,我希望获得“Printed By:”旁边的文字,有时它的一个词是“Arun”,有时候是两个词“Arun Ragavan”;所以我试图找到行号并获得excel中的完整文本。
Code Tried:
Set avobj = pddoc.OpenAVDoc(DocName)
Set jso = pddoc.GetJSObject
cntPages = pddoc.GetNumPages
For ip = 0 To cntPages - 1
cntWords = jso.getPageNumWords(ip)
For iw = 0 To cntWords - 1
If jso.getPageNthWord(ip, iw) = "By" Then
ws.Range("A1").Value = jso.getPageNthWord(ip, iw + 1) & jso.getPageNthWord(ip, iw + 2)
End If
Next
Next
与上面的示例一样,我通过查找文本来提取许多其他字段。