不同的搜索结果在不同的环境中

时间:2016-06-17 05:29:32

标签: python pandas search ipython data-science

我正在学习数据科学,在遇到问题时,我发现了一个奇怪的观察结果。问题是使用python在Beautiful Soup主页上打印字符串'Soup'的出现次数。奇怪的部分是, iPython笔记本和Python中出现的次数,当我在网页上运行手动搜索时,结果完全不同

如果有人能给出合理的解释,我会很高兴。我附上了代码片段和结果:

在Python中

I have simply used urllib and not BeautifulSoup

在熊猫中

Using the .count() function

手动

enter image description here

正如您所看到的,结果在所有环境中都有所不同,它在Python中显示39次,在Pandas中显示41次,通过手动搜索显示35次。

谢谢

1 个答案:

答案 0 :(得分:3)

我认为Python仅找到39,因为2中缺少<head>

<title>Beautiful Soup: We called him Tortoise because he taught us.</title>
<meta name="Description" content="Beautiful Soup: a library designed for screen-scraping HTML and XML.">

您可以Source of the page查看 - 有41次出现。

如果手动检查webpage(35次出现),则urls中的{4}和2中的<head>41

<a href="http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html">Here's
the Beautiful Soup 3 documentation.</a>
<a href="download/3.x/BeautifulSoup-3.2.1.tar.gz">3.2.1</a> 
<a href="/source/software/BeautifulSoup/index.bhtml">
<a href="http://www.crummy.com/software/BeautifulSoup/">