Question

我正在使用一个处理简历的WEB应用程序，我需要提取姓名。

所以我创建了一个使用Tika返回pdf文本的函数

from tika import parser
def get_text(path):
    content = parser.from_file(path)
    return content['content']

另一个检索名称的功能

import nltk
from nltk.corpus import stopwords
import enchant
def extract_name(document):
    names = []
    d = enchant.Dict("en_US")
    sentences = tokenize(document)
    for sentence in sentences:
        for s in sentence:
            if not d.check(s[0]):
                names.append(s[0])

    return " ".join(names[:2])

print(extract_name(get_text("CV-Fabien_Boutantin_fr_2005.pdf")))
print(extract_name(get_text("My_CV.pdf")))

第一次测试成功，我得到以下输出结果

BOUTANTIN BOUTANTIN

但是对于我的简历却无法正常工作，我得到了：

2mm穆罕默德胺2mm

在我的乳胶中，我有这个：

\firstname{\vspace{2mm}Mohamed Amine\vspace{2mm}}
\lastname{MESSAOUDI}

我想Tika在阅读乳胶pdf时有问题

蒂卡无法正确阅读乳胶pdf

0 个答案: