我正在尝试创建一个程序,可以自动扫描用户桌面上的图像或文本,然后将其转换为.txt
文件进行文本分析。
到目前为止,我找到了将PDF
和HTML
转换为.txt
的源代码。但是,我想让我的程序以特定的时间间隔自动扫描桌面屏幕,而不是手动输入源,如:
$pdf2txt.py samples/simple1.pdf
我不知道从哪里开始所以任何建议都将受到赞赏。
答案 0 :(得分:0)
首先,桌面只是文件目录中的一个位置,如:
C:\Users\Kirsteen\Desktop
因此,下一步是在此目录中搜索您感兴趣的文件类型。您的目标是生成需要转换的有效文件名列表。这Q/A可能会对您有所帮助。
找到文件后,运行那些转换脚本。要重复此操作,请自动将所有这些放入循环中并添加延迟,以使其每小时/每周运行一次。
要整理一下,请考虑在后台运行此过程,并确保程序在未更改的情况下不会多次转换文件。