Python-Reading网页无法正常工作

时间:2018-02-02 21:30:13

标签: python beautifulsoup

道歉,如果这不是一个合适的问题,但我需要一些帮助。我正在尝试使用BeautifulSoup来阅读网站上的文章。我在BBC新闻网站上试过它,它运作正常。但是当我使用这个网站时:http://dncapital.com/dn-capital-raises-new-e200m-fund/它没有打印正确的东西。我能做什么?我试过寻找其他方法,但它似乎没有用,或者它花钱。这是我的代码:

sauce = urllib.request.urlopen('http://dncapital.com/dn-capital-raises-new-e200m-fund/').read()
soup = bs.BeautifulSoup(sauce,'lxml')
source_stopwords=""
for paragraph in soup.find_all('p'):
    source_stopwords=source_stopwords+paragraph.text

print(source_stopwords)

但它没有打印出正确的东西。这就是打印出来的。

Call us :   London: +44 (0)20 7340 1600 ⎪  Menlo Park: +1 (0)650 561 9300           Please click on the button below to submit your press enquiry. 

                                            Please fill in this form to subscribe to our mailing list.

                                        DN Capital (US) Inc.
2882 Sand Hill Road, Suite 210
Menlo Park
CA 94025
 +1 650 561 9300DN Capital (UK) LLP
2 Queen Anne's Gate Buildings
Dartmouth Street
London SW1H 9BP  +44 (0)20 7340 1600
 +44 (0)20 7340 1601

1 个答案:

答案 0 :(得分:0)

您为BBC网站找到的解决方案仅适用于结构相同的其他网站。这是不太可能的。该站点将需要使用相同的CMS和相同的页面模板(设计)。

我已经在BBC新闻网站上尝试过,并且可以正常运行。

您为BBC网站找到的解决方案将永远无法使用。 BBC将来可能会随时更改其网站结构,从而破坏您的实施。

我该怎么办?

您可以更改代码。如果您不想更改每个网站的代码,则需要一些巧妙的方法来使代码以自己的方式了解网站​​的结构。这可能涉及统计数据(例如,标题应该比文本少得多)或机器学习(例如,您对说400个有关其标签的网站进行分类,然后PC可以为您服务)。

我曾经尝试过寻找其他方法,但是它似乎没有用或者要花钱。

更改代码将导致每小时的工作量,因此会增加成本。更改代码,写账单,赚钱。软件开发人员就是这样赚钱的,不是吗?