从20,000多个文本文件中提取数据

时间:2014-04-10 19:27:38

标签: html wordpress text automation text-extraction

我发现自己目前的情况包括以下内容:

创建一个由wordpress提供支持的网站,我有超过20,000个文本文件,其中包含我要发布的内容,但问题是,它们还包含我没有用的其他垃圾,每个文件的结构看起来有点像这样

http://bit.ly/1lTBAoN

我考虑过以下事项(这些事情看起来非常费时且毫无意义)

  • 创建一个宏以自动转到文本文件中的指定行,输入CTRL + C& CTRL + V进入wordpress编辑器并通过那里发布,但这似乎相当多的工作,宏必须运行一段时间。

  • 这部分实际上很有趣,我打算用sql语句替换所有20k文本文件中的特定行,以插入到数据库中的wp_posts表中,然后将其替换为另一行关闭sql语句,然后我将使用notepad ++中的“在所有文件中查找”选项并逐行删除垃圾。

  • 我还在考虑将所有数据导入excel电子表格(.csv)是否明智,只需使用csv wordpress插件批量上传它们。

我必须有一个更简单的方法来执行此操作,我要保留的文本的唯一部分是iframe元素。

0 个答案:

没有答案