全注释,一步一步思路解析

思路:首先理解次日留存率,次日留存率即:后一天的新用户(第二次登录)的总数 / 当日新用户登录的总数

示例:13号登录的新用户,在14号也登陆了

题目解析完,那接下来我们就只需要求上面两个的值了

  1. 后一天的新用户(第二次登录)的总数:今天登录了,第二天也登录了,且今天登录的必须是新用户,满足以上条件sum才可以+1
(sum(case when 
(user_id, date)
in (select user_id, min(date) from login group by user_id) 
and 
(user_id, date) 
in (select user_id, data_add(date, interval 1 day) from login) then 1 else 0 end))
  1. 当日新用户登录的总数:总人数为当日用户为新用户的总人数
(sum(case when
(user_id, date) in (select user_id, min(date) from login group by user_id)
then 1 else 0))
  1. 最后结合round函数求出新用户留存的概率

注意:因为分母有可能为0,所以用ifnull(不为null时返回的值,为null时返回的值),这里指定为null时返回0

注释版:

select date, ifnull(round((sum(case when 			# ifnull 是为了防止分母为空而返回错误,round 函数是用来计算小数,case when 是用来当满足条件时,对sum进行+1操作
(user_id, date) in (select user_id, min(date) from login group by user_id) 		# (user_id, date) 表示当日的用户,in 后的条件表示当前用户是新用户
 and 
(user_id, date) in (select user_id, date_add(date, interval -1 day) from login) then 1 else 0 end))		# 这段表示用户前一天也登录了
/ 
(sum(case when										
(user_id, date) in (select user_id, min(date) from login group by user_id)		# 这段表示今日所有的新用户,即新用户总数
then 1 else 0 end)),3),0) as p																								# 这里表示如果满足条件则+1,否则为0,3表示取三位小鼠,0表示如果分母为空则返回0
from login
group by date

对于为什么使用 interval -1 day 的问题上:我们用数据来代入看一下,可以发现date为2020-10-12的记录在经过DATE_ADD(...)之后就变成了2020-10-13,所以当遍历到 2020-10-12 时就没有记录可以匹配得上(因为2020-10-12是最早得记录),属于12的记录被推后到13;所以我们需要-1

无注释版:

select date, ifnull(round((sum(case when 			
(user_id, date) in (select user_id, min(date) from login group by user_id) 		
 and 
(user_id, date) in (select user_id, date_add(date, interval -1 day) from login) then 1 else 0 end))		
/ 
(sum(case when										
(user_id, date) in (select user_id, min(date) from login group by user_id)		
then 1 else 0 end)),3),0) as p																								
from login
group by date

参考文章

  1. https://blog.nowcoder.net/n/6b443e5e0861459ab45b6d4b93de28b9
  2. https://blog.nowcoder.net/n/1d803b9c5b774cc6b43589de947524a0?f=comment