一段时间以来,我一直在试图弄清为什么我的python脚本没有更新数据库。
我有一个名为database.py
的文件,看起来像这样:
import mysql.connector as mariadb
import globals
def connect():
mariadb_connection = mariadb.connect(user=globals.MY_USERNAME, password=globals.MY_PASSWORD, database='ellen')
return mariadb_connection
def insert_author_topics(author_id, topics, cursor):
sql = "UPDATE author SET topics = \'" + str(topics) + "\' WHERE id = " + str(author_id) + ";"
try:
cursor.execute(sql)
except mariadb.Error as error:
print("Error: {}".format(error))
def close(connection):
connection.commit()
connection.close()
在我的主文件中,我具有如下功能:
def get_topics(x, ldamodel, cursor, connection):
author_text = x['processed_text']
bow_vector = dictionary.doc2bow([author_text])
topics = '['
for index, score in sorted(ldamodel[bow_vector], key=lambda tup: -1*tup[1]):
new_topic = "Score: {}\t Topic: {} ".format(score, ldamodel.print_topic(index, 5))
topics += new_topic
topics += ']'
database.insert_author_topics(author['id'], topics, cursor)
connection.commit()
我有一个作者的熊猫数据框,并且对每个作者都调用get_topics
,它的调用insert_author_topics
如下:
authors.apply(lambda x: get_topics(x, ldamodel, cursor, connection), axis=1)
我总共有大约100,000名作者。由于某种原因,每当我运行此脚本时,数据库中仅更新大约200位作者。
尝试运行脚本时没有出现任何错误。我尝试打印出每个使用sql语句更新的作者的ID,然后打印了大约100,000个ID。
任何帮助将不胜感激。如果需要,我可以提供更多信息。谢谢!
答案 0 :(得分:0)
问题出在这行代码中:
database.insert_author_topics(author['id'], topics, cursor)
如果您查看传递给函数的参数,实际上我应该像这样调用insert_author_topics
:
database.insert_author_topics(x['id'], topics, cursor)
我不确定这是如何工作的,但不会抛出任何错误,但是很高兴我终于弄清楚了!