蒂卡无法正确阅读乳胶pdf

时间:2019-04-01 12:41:04

标签: python pdf latex apache-tika

我正在使用一个处理简历的WEB应用程序,我需要提取姓名。

所以我创建了一个使用Tika返回pdf文本的函数

from tika import parser
def get_text(path):
    content = parser.from_file(path)
    return content['content']

另一个检索名称的功能

import nltk
from nltk.corpus import stopwords
import enchant
def extract_name(document):
    names = []
    d = enchant.Dict("en_US")
    sentences = tokenize(document)
    for sentence in sentences:
        for s in sentence:
            if not d.check(s[0]):
                names.append(s[0])

    return " ".join(names[:2])

print(extract_name(get_text("CV-Fabien_Boutantin_fr_2005.pdf")))
print(extract_name(get_text("My_CV.pdf")))

第一次测试成功,我得到以下输出结果

BOUTANTIN BOUTANTIN

但是对于我的简历却无法正常工作,我得到了:

2mm穆罕默德胺2mm

在我的乳胶中,我有这个:

\firstname{\vspace{2mm}Mohamed Amine\vspace{2mm}}
\lastname{MESSAOUDI}

我想Tika在阅读乳胶pdf时有问题

0 个答案:

没有答案