爬虫入门_牛客博客

爬虫入门

811 浏览 0 回复 2018-04-03

我不是匠人

+关注

这是我自己写的一个小爬虫，爬取极客学院网站上的课程头像

主要工具：
正则表达式
requests库
BeautifulSoup库
代码如下：

import re
import requests
from bs4 import BeautifulSoup


url = 'http://www.jikexueyuan.com/'
r = requests.get(url)
demo = r.text
soup = BeautifulSoup(demo,'html.parser')
i = 1
for link in soup.find_all('a','card'):
          demo = str(link.contents)
          pattern = re.findall('src="(.*?)"',demo) #这是一个list,但是只有一个字符串
          html = pattern[0] #把list中的字符串提取出来
          print('now downloading the '+str(i)+' picture')
          with open('pic//' + str(i) + '.png','wb')as f:
            f.write(requests.get(html).content) #注意这里是content
          i += 1