Python 爬虫

最近在学 Python ，找了一个入门级的 Crawler 代码进行学习，双管齐下。(#^.^#)

仅供个人学习 Python 和爬虫入门使用，也欢迎大佬们指点。

目标分析

百度百科 Python 词条相关词条网页-标题和简介

URL：    http://baike.baidu.com/view/21087.htm

词条页面 URL：    http://baike.baidu.com/item/*

标题：    <dd class="lemmaWgt-lemmaTitle-title"><h1> *** </h1></dd>
简介：    <div class="lemma-summary"> *** </div>

Python：    Python 2.7.10
第三方模块： BeautifulSoup4

PythonCrawler 主程序，涵盖主要爬取逻辑。

URL 管理器，用来管理 URL，将 URL 分为新旧两部分，新的是未爬取过的 URL，旧的是已经爬取过的 URL。

HTML 下载器，用来下载想要爬取的网址 HTML 源码并且留给 HTML 解析器解析。

HTML 解析器，用来解析下载好的页面 HTML 源码，并从中检索新的 URL 留给 URL 管理器管理、获取想要的数据信息留给 HTML 输出器输出。

HTML 输出器，用来将 HTML 解析器提取出来的信息输出成 HTML 格式。