我编写了一个Python脚本,可以在我们大学的HTML页面上搜索我们需要的所有学位信息。它生成所有数据的.csv
文件。然后,使用我们的API中的方法将.csv
文件中的数据上传到数据存储区。
这是一个特别沉闷的过程。由于我们只能生成不到一分钟的请求,因此我们需要将.csv
文件分解为许多不同的位。显然,这并不酷。
我们最初设想了一个数据库,它将采用我们的python脚本并每年更新/填充所有新的学位信息。与用Java编码的GAE云数据存储区一起运行的python脚本。
有可能这样做吗?我们可以让数据库自行更新吗?
如果是这样,我们是否可以手动和自动实现?
感谢阅读!
答案 0 :(得分:1)
基本上,你想要使用一个Python脚本获取你创建的csv文件,然后用另一个程序解析它并将该数据上传到数据存储区,以便其他东西可以访问。
我看到了几个选项:
使用Pull Queues。设置一个Appengine项目,该项目托管一个RESTful服务,当前的Python脚本可以将CSV文件上传到该应用程序,并且应用程序将其处理/放入数据存储区。
使用cron作业构建应用程序,该作业检查新CSV文件的特定位置,使用原始Python脚本(或手动)将CSV文件放入该特定文件夹,然后使用它。该应用程序还可以有一个页面,您可以手动上传CSV文件,这将为您提供自动和手动选项。
每一个的具体细节以及你如何构建它们当然都取决于你。