Question

我正在尝试从PDF文件中查找文本，并在excel中获取与该行关联的所有单词。从网站上获得了一些语法，它将逐字阅读PDF并找到匹配的文本并获得下一个单词，但我对这种方法的问题是匹配文本旁边的值变化，可能是要捕获的单个或多个单词。例如：

印刷：Arun Ragavan
印刷：阿伦

在这里，我希望获得“Printed By：”旁边的文字，有时它的一个词是“Arun”，有时候是两个词“Arun Ragavan”;所以我试图找到行号并获得excel中的完整文本。

Code Tried：

Set avobj = pddoc.OpenAVDoc(DocName)
Set jso = pddoc.GetJSObject
cntPages = pddoc.GetNumPages
    For ip = 0 To cntPages - 1
        cntWords = jso.getPageNumWords(ip)
        For iw = 0 To cntWords - 1
            If jso.getPageNthWord(ip, iw) = "By" Then
                ws.Range("A1").Value = jso.getPageNthWord(ip, iw + 1) & jso.getPageNthWord(ip, iw + 2)
            End If
         Next
    Next

与上面的示例一样，我通过查找文本来提取许多其他字段。

如何使用vba查找文本并从acrobat获取行号

0 个答案: