从python中的推文中提取外部链接

时间:2017-02-02 21:57:13

标签: python api twitter

我写了这个简单的程序来从特定用户的推文中提取链接。我能够提取推文内部的链接,但似乎所有我得到的是用t.co作为域缩短的链接。这些链接正在引导其他推文。

问题是这些链接有时会导致其他推文。如何从推文中获取链接,并确保这些链接适用于外部网站,而不是推特本身。

我希望我的问题很明确,因为这是我描述它的最佳方式。

由于

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import sys
import re

#http://www.tweepy.org/
import tweepy

#Get your Twitter API credentials and enter them here
consumer_key = ""
consumer_secret = ""
access_key = ""
access_secret = ""

#method to get a user's last  200 tweets
def get_tweets(username):

        #http://tweepy.readthedocs.org/en/v3.1.0/getting_started.html#api
        auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
        auth.set_access_token(access_key, access_secret)
        api = tweepy.API(auth)

        #set count to however many tweets you want; twitter only allows 200 at once
        number_of_tweets = 200

        #get tweets
        tweets = api.user_timeline(screen_name = username,count = number_of_tweets)

        for tweet in tweets:
                urls = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', tweet.text)
                for url in urls:
                        print url


#if we're running this as a script
if __name__ == '__main__':

    #get tweets for username passed at command line
    if len(sys.argv) == 2:
        get_tweets(sys.argv[1])
    else:
        print "Error: enter one username"

    #alternative method: loop through multiple users
        # users = ['user1','user2']

        # for user in users:
#       get_tweets(user)

这是一个输出示例:(我无法发布它,因为它缩短了链接)。编辑不允许我这样做。

2 个答案:

答案 0 :(得分:2)

在 Python3 中,您可以按照以下方式进行 Greg Filla 的回答:

import urllib

for tweet in tweets:
urls = re.findall("http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", tweet.text)
for url in urls:
    try:
        opener = urllib.request.build_opener()
        request = urllib.request.Request(url)
        response = opener.open(request)
        actual_url = response.geturl()
        print(actual_url)
    except:
        print(url)

答案 1 :(得分:0)

您需要获取重定向的网址。首先,添加true,然后尝试以下代码:

import urllib2

我有try..except块,因为我测试的一些推文是提取无效的网址。