在我的项目中,我有157个xml文件,每个文件5000个节点。节点包含一些元数据和新闻文章的全文。我必须从每个节点提取某些信息并将其插入数据库。
我的数据库中的列是: -AN文章编号(varchar(25)) - 文章的全文(varchar(max))
我现在要做的是为每个节点创建一个包含两个元素的元组,然后逐行将它插入到数据库中。
not_analyzed
它达到了预期的效果,但每个文件需要20-30分钟。我不认为在数据库中写入5000行应该花费那么多。
我也尝试过使用pandas Dataframe.to_sql,但我认为它不允许使用MS SQL Server。
我的方法是否正确?