目标:使用CRON任务(或其他预定事件)通过从现有系统每晚导出数据来更新数据库。
在现有系统中创建/更新/删除所有数据。该网站没有直接与该系统集成,因此rails应用程序只需要反映数据导出中出现的更新。
我有一个约有5,000种产品的.txt
文件,如下所示:
"1234":"product name":"attr 1":"attr 2":"ABC Manufacturing":"2222"
"A134":"another product":"attr 1":"attr 2":"Foobar World":"2447"
...
所有值都是用双引号("
)括起来的字符串,用冒号(:
)
字段是:
id
:唯一ID;字母数字name
:产品名称;任何角色vendor_name
:string;任何角色vendor_id
:唯一的供应商ID;数字供应商信息未在当前系统中标准化。
这里的最佳做法是什么?是否可以删除产品和供应商表并在每个周期重写新数据?或者仅添加新行并更新现有行更好?
备注:
Orders
,该数据将在夜间数据库导入中持续存在。 OrderItems
需要连接到数据文件中指定的产品ID,因此我们不能依赖自动递增的主键对每个导入都是相同的;需要使用唯一的字母数字ID将products
加入order_items
。rake
任务才能使用Product.create(...)
和Vendor.create(...)
样式语法。答案 0 :(得分:14)
我不会在每个周期删除产品和供应商表。这是一个rails应用程序吗?如果是这样的话,有一些非常好的ActiveRecord助手可以为你派上用场。
如果您有产品活动记录模型,则可以执行以下操作:
p = Product.find_or_initialize_by_identifier(<id you get from file>)
p.name = <name from file>
p.size = <size from file>
etc...
p.save!
find_or_initialize将按您指定的ID在数据库中查找产品,如果找不到,则会创建一个新产品。这样做非常方便的事情是ActiveRecord只会在任何数据发生变化时保存到数据库中,它会相应地自动更新表中的任何时间戳字段(updated_at)。还有一件事,因为你要按标识符(文件中的id)查找记录,我会确保在数据库中的该字段上添加一个索引。
要执行rake任务来完成此操作,我会将rake文件添加到rails应用程序的lib / tasks目录中。我们称之为data.rake。
在data.rake中,它看起来像这样:
namespace :data do
desc "import data from files to database"
task :import => :environment do
file = File.open(<file to import>)
file.each do |line|
attrs = line.split(":")
p = Product.find_or_initialize_by_identifier(attrs[0])
p.name = attrs[1]
etc...
p.save!
end
end
end
要调用rake任务,请从命令行使用“rake data:import”。
答案 1 :(得分:0)
由于产品实际上并没有真正改变,我看到的最好方法是只更新更改的记录。
如果您在模型中使用了规范化代码,则可以使用Product.create和Vendor.create,否则它只会是一种过度杀伤力。另外,查看在单个SQL事务中插入多个记录,其速度要快得多。
答案 2 :(得分:0)
file.each do | line | products_array = line.split(“:”) 端
使用find_or_initialize填充数据库,例如:
Product.find_or_initialize_by_name_and_vendor_id(“foo”,111)