Question

我正在下载Reddit的前100个帖子。然而，许多是外部链接，jpg文件或其他类型的非文本内容。因此我得到一个主要由空单位组成的列表。我想知道是否有办法只检索那些包含selftext的条目。这是我的代码：

导入json import nltk 进口重新进口熊猫

appended_data = []

subreddit = reddit.subreddit('bitcoin') 

top_python = subreddit.hot(limit=100) entries

for submission in top_python:
    if not submission.stickied:

        appended_data.append(submission.selftext)



str_list = list(filter(None, appended_data))

Answer 1

有一个内置标志，用于检查某些内容是否是文本帖子，is_self。代码的更新版本看起来有点像这样：

import json 
import nltk 
import re 
import pandas

appended_data = []

subreddit = reddit.subreddit('bitcoin') 

top_python = subreddit.hot(limit=100) entries

for submission in top_python:
    if not submission.stickied and submission.is_self:

        appended_data.append(submission.selftext)



str_list = list(filter(None, appended_data))

如果您有任何其他问题，请随时发表评论并提出要求！

仅检索具有selftext reddit praw的条目

1 个答案: