使用Python

时间:2017-12-29 17:23:47

标签: python-3.x file pandoc text-extraction read-write

如果愿意的话,请帮助我找出更适合解决以下问题的方法。

我正在编写一个应用程序的代码,用于替换文本中的单词,从某种写入方式到另一种写入方式;例如,将所有单词“color”替换为“color”。

代码正在这样做,但只能通过读取和写入.txt文件来实现,而Python明确表示。

但是,我希望它能够从其他文本格式中读取(并最终写入)。所以,我去寻找解决方案,我发现了两个:textract和pandoc。 Textract需要先前安装完整的库和程序列表。

Pandoc只需要你在pip install pypandoc之前安装自己并使用它,看起来更好。 (Pandoc安装指南参考,如果您还希望能够在PDF上编写,则需要安装LaTex ...)

我的目标是构建一个独立于平台的应用程序。 我的问题是(是):

应用用户是否必须在他的机器上安装Pandoc(最终是LaTex)才能使用该应用程序?

最好(尽管非常不专业,我猜)会警告用户他必须只使用(复制并粘贴).txt文件与应用程序?

1 个答案:

答案 0 :(得分:0)

一些"卫星"后来我对自己的问题有了答案。 所以,我正在分享它。 (这不是我们都来这里的原因吗?) 该应用程序的代码是完整和有效的,实际上我没有使用textract或pandoc。 这是我使用的模块列表: PyPDF,docx,ezodf,beautifulsoup,ebooklib - 以及其他一些辅助工具。

我很高兴有这么多的进口。 有人告诉我,我可以使用NLTK库完成所有这些工作。 在我开始研究这件事之前,有人证实了这一点吗? 谢谢。