全注释,一步一步思路解析
思路:首先理解次日留存率,次日留存率即:后一天的新用户(第二次登录)的总数 / 当日新用户登录的总数
示例:13号登录的新用户,在14号也登陆了
题目解析完,那接下来我们就只需要求上面两个的值了
- 后一天的新用户(第二次登录)的总数:今天登录了,第二天也登录了,且今天登录的必须是新用户,满足以上条件sum才可以+1
(sum(case when
(user_id, date)
in (select user_id, min(date) from login group by user_id)
and
(user_id, date)
in (select user_id, data_add(date, interval 1 day) from login) then 1 else 0 end))
- 当日新用户登录的总数:总人数为当日用户为新用户的总人数
(sum(case when
(user_id, date) in (select user_id, min(date) from login group by user_id)
then 1 else 0))
- 最后结合round函数求出新用户留存的概率
注意:因为分母有可能为0,所以用ifnull(不为null时返回的值,为null时返回的值),这里指定为null时返回0
注释版:
select date, ifnull(round((sum(case when # ifnull 是为了防止分母为空而返回错误,round 函数是用来计算小数,case when 是用来当满足条件时,对sum进行+1操作
(user_id, date) in (select user_id, min(date) from login group by user_id) # (user_id, date) 表示当日的用户,in 后的条件表示当前用户是新用户
and
(user_id, date) in (select user_id, date_add(date, interval -1 day) from login) then 1 else 0 end)) # 这段表示用户前一天也登录了
/
(sum(case when
(user_id, date) in (select user_id, min(date) from login group by user_id) # 这段表示今日所有的新用户,即新用户总数
then 1 else 0 end)),3),0) as p # 这里表示如果满足条件则+1,否则为0,3表示取三位小鼠,0表示如果分母为空则返回0
from login
group by date
对于为什么使用 interval -1 day 的问题上:我们用数据来代入看一下,可以发现date为2020-10-12的记录在经过DATE_ADD(...)之后就变成了2020-10-13,所以当遍历到 2020-10-12 时就没有记录可以匹配得上(因为2020-10-12是最早得记录),属于12的记录被推后到13;所以我们需要-1
无注释版:
select date, ifnull(round((sum(case when
(user_id, date) in (select user_id, min(date) from login group by user_id)
and
(user_id, date) in (select user_id, date_add(date, interval -1 day) from login) then 1 else 0 end))
/
(sum(case when
(user_id, date) in (select user_id, min(date) from login group by user_id)
then 1 else 0 end)),3),0) as p
from login
group by date
参考文章:



京公网安备 11010502036488号