Question

我是一个完整的编程菜鸟，我正在尝试配置Twitter-Tweepy-MySQL收集机制。我已经回顾了一些关于这个的类似帖子，我无法得到答案，所以我希望我不会在这里复制......

我对我运行的基本脚本感到满意，现在我正在尝试对其进行优化以构建我所追求的确切模式。

我花了好几个小时试图整理标签提取。我可以提取一个标签好 - 问题是一条推文经常有六打，我需要它们全部。我的问题是它们是Tweet对象中数组的一部分，我无法弄清楚如何告诉Python将它们全部解压缩并填充MySQL。我很确定我需要使用其中一个条件，但不能在每个标签行上使TRY或IF工作......

当你看下我的剧本时，尽量不要笑 - 我知道这是非常业余的，但YouTube只能带你到目前为止。我希望这显然是我想要做的，我会留下评论来展示我之前的一些尝试/思考。

非常感谢任何建议！罗宾

脚本如下：

from tweepy import Stream
from tweepy import OAuthHandler
from tweepy.streaming import StreamListener
import MySQLdb
import time
import json

conn = MySQLdb.connect("snarf","snarf","snarf","snarf", charset='utf8')

c = conn.cursor()

#consumer key, consumer secret, access token, access secret.
ckey = 'snarf'
csecret = 'snarf'
atoken = 'snarf'
asecret = 'snarf'

class listener(StreamListener):

    def on_data(self, data):
        try:
            tweet = json.loads(data)

            screen_name = tweet["user"]["screen_name"]
            created_at = tweet ["created_at"]
            identity = tweet ["id"]
            text = tweet ["text"]

            hashtag1 = tweet ["entities"]["hashtags"][0]["text"]
            #hashtag2 = tweet ["entities"]["hashtags"][1]["text"]
            #hashtag3 = tweet ["entities"]["hashtags"][2]["text"]
            #hashtag4 = tweet ["entities"]["hashtags"][3]["text"]
            #hashtag5 = tweet ["entities"]["hashtags"][4]["text"]

            #URL1 = tweet ["entities"]["urls"][0]["expanded_url"]
            #URL2 = tweet ["entities"]["urls"][1]["expanded_url"]
            #URL3 = tweet ["entities"]["urls"][2]["expanded_url"]
            #URL4 = tweet ["entities"]["urls"][3]["expanded_url"]
            #URL5 = tweet ["entities"]["urls"][4]["expanded_url"]

                   c.execute("INSERT INTO news (timestamp, screen_name, created_at, id, text, hashtag_1) VALUES (%s,%s,%s,%s,%s,%s)",
                (time.time(), screen_name, created_at, identity, text, hashtag1))

            conn.commit()

            print((text))

            return True
        except BaseException, e:
            print 'failed on data,',str(e)
            time.sleep(5)

    def on_error(self, status):
        print status

auth = OAuthHandler(ckey, csecret)
auth.set_access_token(atoken, asecret)

twitterStream = Stream(auth, listener())
twitterStream.filter(track=["#football", "#soccer"])

Answer 1

您可以像这样使用for循环：

hashtags = []   #make an empty list

for hashtag in tweet["entities"]["hashtags"]:    #iterate over the list
    hashtags.append(hashtag["text"])             #append each hashtag to 'hashtags'

 c.execute("INSERT INTO news (timestamp, screen_name, created_at, id, text, hashtag_1) VALUES (%s,%s,%s,%s,%s,%s)", (time.time(), screen_name, created_at, identity, text, str(hashtags)))

它只是遍历主题标签列表，并将文本附加到名为“hashtags”的列表中。因为我不知道在SQL数据库中存储未定义长度列表的任何方法，所以我基本上使用str()将列表转换（序列化）为字符串，并将其存储在hashtag_1列中。

如果您正在寻找更详细的python课程：我非常喜欢codecademy

修改

如果推文包含单引号，则文本将仅部分保存。随后，您应该将以下代码放在for循环前面：

#I presume your tweet is saved in the variable text txt = [] if "'" in text: for item in text: if not item=="'": txt.append(item) else: txt.append("''") text = ''.join(txt)

使用Tweepy提取主题标签进入MySQLdb

1 个答案: