python,webscraping和写一个文件

时间:2017-01-18 14:45:26

标签: python request urllib

我在这个程序中使用了3个模块,我不知道我试图做什么甚至是可能的!所以我想从twitter中删除一些数据并使用python将其写入文本文件中,有人可以指导我并告诉我为什么我的代码不会写废弃的数据吗?

import urllib
import urllib.request
from os import path
from bs4 import BeautifulSoup

# here I define the url, I request the page, create my soup
theurl = "https://twitter.com/realDonaldTrump"
thepage = urllib.request.urlopen(theurl)
soup = BeautifulSoup(thepage, "html.parser")

def create_file(dest):
    """
    Creates a file for the user to write data in!
    :param dest:
    :return:
    """
    ## FileName == Month_Day_Year
    name = 'Data Scraped.txt'

    if not(path.isfile(dest +name)):
        f = open(dest + name, "w")
        f.write(soup.title.text)
        f.close()

if __name__ == '__main__':
    destination = 'C:\\Users\\edwin\\' \
              'Desktop\\WebScrappin\\'
    create_file(destination)
    print("Your file has been created!!")

1 个答案:

答案 0 :(得分:0)

您只是撰写您收到的文件的标题。

        f.write(soup.title.text)

您应该从against their ToS收集数据或使用像RESTful API

这样的库,而不是抓取(Twython