结合之前学到的网络爬虫和发送电子邮件的知识,实现一个功能服务。本文用python代码实现,从某新闻网站爬取一个头条新闻,提取标题和url链接,然后把这些信息整合发送到指定邮箱上。

 

代码

主模块:控制整体流程

from crawl_info import get_info
from send_mail import send_mail

if __name__ == '__main__':  #服务程序的入口
	crawl_url = "https://news.sina.com.cn/" # 新浪网首页
	content = get_info(crawl_url)		#爬取信息
	send_mail(content)			#发送短信

 

crawl_info模块:获取关键内容

#封装网络获取的信息
import requests
from bs4 import BeautifulSoup
import re


#解决网页编码问题
def getUrlCoding(data):  
    charset = 'utf-8'
    if data.encoding.lower() == 'utf-8' or data.encoding == 'utf8':
        return 'utf-8'
    if data.encoding.lower() == 'gb2312':
        return 'gb2312'
    if data.encoding.lower() == 'gbk':
        return 'gbk'
    if data.encoding.lower() == 'gb18030':
        return 'GB18030'
    m = re.compile('<meta .*(http-equiv="?Content-Type"?.*)?charset="?([a-zA-Z0-9_-]+)"?', re.I).search(data.text)
    if m and m.lastindex == 2:
        charset = m.group(2).lower()
    return charset

#获取网页的详细信息
#返回带有新闻地址和新闻标题的字符串
def get_info(url):
    response = requests.get(url)
    if response.status_code == 200:
        response.encoding = getUrlCoding(response)
        soup = BeautifulSoup(response.text, 'lxml')
        big_news = soup.select('#syncad_1 > h1:nth-child(1) > a')[0].get_text() #标题内容
        url = soup.select('#syncad_1 > h1:nth-child(1) > a')[0].get('href')     #获取url
        return "新闻标题:"+big_news+"\n新闻地址:"+url

 

send_mail模块:发送邮件

#发送邮件到指定的邮箱
from email import encoders
from email.header import Header
from email.mime.text import MIMEText
from email.utils import parseaddr, formataddr

import smtplib



def _format_addr(s):
    name, addr = parseaddr(s)
    return formataddr((Header(name, 'utf-8').encode(), addr))


def send_mail(text):
	#配置信息以环境变量的形式保存
    user_mail = '你本人的邮箱地址'
    password = '你的邮箱密码'
    send_mail = '收件人的邮箱地址'
    smtp_server = '你所在邮箱的smtp服务器地址'

	#填写邮件的正文、发件人信息、收件人信息、主题...
	msg = MIMEText(text, 'plain', 'utf-8')	
	msg['From'] = _format_addr('XX 大新闻 <%s>' % user_mail)
	msg['To'] = _format_addr('收件人 <%s>' % send_mail)
	msg['Subject'] = Header('xx新闻提醒', 'utf-8').encode()

	#发出邮件要执行的动作
	server = smtplib.SMTP(smtp_server, 25)	#执行邮局服务器的25端口
	server.set_debuglevel(1)		#	
	server.login(user_mail, password)	#登录服务器
	server.sendmail(user_mail, [send_mail], msg.as_string()) #发送信件到指定的地址
	server.quit()	#结束服务


 

运行

 

实现