我想使数据挖掘过程自动化,即从27个doc文件中提取文本块(一个接一个),然后在google-translate中翻译它们,并将翻译后的文本存储在一个普通文档中。
这是伪代码中的程序逻辑:
从3-5点开始循环执行,直到第一个文档文件的正文为空。然后,删除目录2中的文件,并将目录dir1中的第二个文件剪切并粘贴到目录dir2中。
过程1-2循环执行,直到dir1中没有更多的文档文件为止。
该项目用于翻译27份文档,每份文档大约4-5000字,目的是修订讲座和考试。我想将所有翻译后的文本存储在1个文档中,然后使用ms-word的Text-To-Speech实用程序。
为了将文档文件移动到临时目录,我正计划使用以下方式:
string sourceFilePath = @"Your Path , ex : C:\";
string destinationFilePath = @"Your Path , ex : C:\";
System.IO.File.Move(sourceFilePath, destinationFilePath);
要从文档中获取20行文本,我打算使用类似这样的内容:
var first10Lines = File.ReadLines(path).Take(10).ToList();
在弄清楚如何构造5点过程的循环,从文档中提取文本(和删除),翻译以及将翻译后的文本添加到最终文档中方面,我将非常感谢帮助。
最重要的是,我不确定如何进行翻译,即-是否可以在浏览器标签中利用已打开的google-translate实例的元素。我听说过google-translate api,但是还没有时间研究它。我有点时间紧张,一直在寻找一种自动化该数据挖掘任务的快速解决方案。我使用Winforms在C#中启动了该项目,并希望通过单击一个按钮来连续开发整个过程。
我已经开始使用C#winforms启动该项目,我不知道是否可以利用所有功能,换句话说,如果有人分享我是否朝着正确的方向前进,我将不胜感激。如果所发布的问题过于笼统,我深表歉意,但是我一直想在过去的两天内开发这个项目,我希望能在一天内完成。 如果有更简单的方法来利用我要使用的功能,我很乐于从研究的要点中受益(以及示例,如果有的话)。
任何可能的解决方案的提示都将不胜感激!