python爬虫(2.7版本)-1

读取网页的第一种方法：

#encoding: utf-8
import urllib2
def download1(url):
    return urllib2.urlopen(url).read()
#读取全部网页，由于是read
url="https://www.baidu.com"
print download1(url)
url="http://www.baidu.com"
#urlopen只能处理http,不能处理https
print download1(url)

读取网页的第二种方法：

def download2(url):
    return urllib2.urlopen(url).readlines()
url="http://www.baidu.com"
print download2(url)
#此时显示出来的是列表，由于readlines读取每一行的网页数据，压入列表

读取网页的第三种方法：

def download3(url):
    response=urllib2.urlopen(url)
    while True:
        line=response.readline()
        if not line:
            break
        print line
url="http://www.baidu.com"
print download3(url)