我写了这个简单的程序来从特定用户的推文中提取链接。我能够提取推文内部的链接,但似乎所有我得到的是用t.co作为域缩短的链接。这些链接正在引导其他推文。
问题是这些链接有时会导致其他推文。如何从推文中获取链接,并确保这些链接适用于外部网站,而不是推特本身。
我希望我的问题很明确,因为这是我描述它的最佳方式。
由于
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import sys
import re
#http://www.tweepy.org/
import tweepy
#Get your Twitter API credentials and enter them here
consumer_key = ""
consumer_secret = ""
access_key = ""
access_secret = ""
#method to get a user's last 200 tweets
def get_tweets(username):
#http://tweepy.readthedocs.org/en/v3.1.0/getting_started.html#api
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_key, access_secret)
api = tweepy.API(auth)
#set count to however many tweets you want; twitter only allows 200 at once
number_of_tweets = 200
#get tweets
tweets = api.user_timeline(screen_name = username,count = number_of_tweets)
for tweet in tweets:
urls = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', tweet.text)
for url in urls:
print url
#if we're running this as a script
if __name__ == '__main__':
#get tweets for username passed at command line
if len(sys.argv) == 2:
get_tweets(sys.argv[1])
else:
print "Error: enter one username"
#alternative method: loop through multiple users
# users = ['user1','user2']
# for user in users:
# get_tweets(user)
这是一个输出示例:(我无法发布它,因为它缩短了链接)。编辑不允许我这样做。
答案 0 :(得分:2)
在 Python3 中,您可以按照以下方式进行 Greg Filla 的回答:
import urllib
for tweet in tweets:
urls = re.findall("http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", tweet.text)
for url in urls:
try:
opener = urllib.request.build_opener()
request = urllib.request.Request(url)
response = opener.open(request)
actual_url = response.geturl()
print(actual_url)
except:
print(url)
答案 1 :(得分:0)
您需要获取重定向的网址。首先,添加true
,然后尝试以下代码:
import urllib2
我有try..except块,因为我测试的一些推文是提取无效的网址。