我有一个文本文件,其中包含逗号描述的值,表示字符串中每一行的数据集。它们大约有200万,我想解析字符串,从它们创建Laravel模型并将每个模型存储在我的数据库中。
目前,我有一个逐行解析文件的类,并按如下方式为每个文件创建一个模型:
class LargeFileParser{
// File Reference
protected $file;
// Check if file exists and create File Object
public function __construct($filename, $mode="r"){
if(!file_exists($filename)){
throw new Exception("File not found");
}
$this->file = new \SplFileObject($filename, $mode);
}
// Iterate through the text or binary document
public function iterate($type = "Text", $bytes = NULL)
{
if ($type == "Text") {
return new \NoRewindIterator($this->iterateText());
} else {
return new \NoRewindIterator($this->iterateBinary($bytes));
}
}
// Handle Text iterations
protected function iterateText()
{
$count = 0;
while (!$this->file->eof()) {
yield $this->file->fgets();
$count++;
}
return $count;
}
// Handle binary iterations
protected function iterateBinary($bytes)
{
$count = 0;
while (!$this->file->eof()) {
yield $this->file->fread($bytes);
$count++;
}
}
}
然后我有一个控制器(我希望能够偶尔通过一个路径运行这个迁移)来处理创建模型并将其插入数据库:
class CarrierDataController extends Controller
{
// Store the data keys for a carrier model
protected $keys;
//Update the Carrier database with the census info
public function updateData(){
// File reference
$file = new LargeFileParser('../storage/app/CENSUS.txt');
//Get iterator for the file
$iterator = $file->iterate("Text");
// For each iterator, store the data object as a carrier in the database
foreach ($iterator as $index => $line) {
// First line sets the keys specified in the file
if($index == 0){
$this->keys = str_getcsv(strtolower($line), ",", '"');
}
// The rest hold the data for each model
else{
if ($index <= 100) {
// Parse the data to an array
$dataArray = str_getcsv($line, ",", '"');
// Get a data model
$dataModel = $this->createCarrierModel(array_combine($this->keys, $dataArray));
// Store the data
$this->storeData($dataModel);
}
else{
break;
}
}
}
}
// Return a model for the data
protected function createCarrierModel($dataArray){
$carrier = Carrier::firstOrNew($dataArray);
return $carrier;
}
// Store the carrier data in the database
protected function storeData($data){
$data->save();
}
}
这非常有效......就在我将功能限制为100次插入时。如果我删除此检查并允许它在整个200万个数据集上运行此功能,则它不再有效。要么超时,要么我通过类似ini_set('max_execution_time', 6000);
之类的东西删除超时,我最终会得到一个&#34;无法响应&#34;来自浏览器的消息。
我的假设是需要进行某种分块,但老实说,我不确定处理此卷的最佳方法。
如果您有任何建议,请提前感谢您。
答案 0 :(得分:3)
我会创建一个工匠命令来处理导入,而不是通过浏览器执行此操作。你喜欢让用户等到导入这个大文件吗?如果他移动会使用后退按钮或关闭页面会发生什么?
如果您想要或需要进行某种用户互动,例如用户上传文件并点击导入按钮,请使用以下操作将导入推送到job queue。魔豆。上述工匠将运行并导入这些东西,如果完成,您可以向用户发送电子邮件或松散通知。如果您需要一些UI交互,您可以通过ajax发出请求,并且该脚本向请求导入状态的API端点发出请求,或者由于其异步,等待完成并显示一些UI通知,停止微调或错误情况,显示错误消息。