题目难度: 中等
今天继续来做并查集的问题, 这道题多了一些变化, 但核心仍然是并查集. 大家在我的公众号"每日精选算法题"中的聊天框中回复 并查集 就能看到该系列当前已经更新的文章了
大家有什么想法建议和反馈的话欢迎随时交流, 包括但不限于公众号聊天框/知乎私信评论等等~
题目描述
每年,政府都会公布一万个最常见的婴儿名字和它们出现的频率,也就是同名婴儿的数量。有些名字有多种拼法,例如,John 和 Jon 本质上是相同的名字,但被当成了两个名字公布出来。给定两个列表,一个是名字及对应的频率,另一个是本质相同的名字对。设计一个算法打印出每个真实名字的实际频率。注意,如果 John 和 Jon 是相同的,并且 Jon 和 Johnny 相同,则 John 与 Johnny 也相同,即它们有传递和对称性。
在结果列表中,选择字典序最小的名字作为真实名字。
- names.length <= 100000
题目样例
示例
输入
names = ["John(15)","Jon(12)","Chris(13)","Kris(4)","Christopher(19)"], synonyms = ["(Jon,John)","(John,Johnny)","(Chris,Kris)","(Chris,Christopher)"]
输出
["John(27)","Chris(36)"]
解释
- 根据同名关系可以合并成只有两个名字, 其频率为转换而来的名字的频率之和
题目思考
- 相比传统并查集, 需要做哪些改变?
- 需要额外记录什么信息?
解决方案
思路
- 分析
- 相比前面两题, 该题多了两个条件, 一是要求祖先最小, 二是需要求频率之和
- 针对第一个需求, 我们可以更改 union 方法, 将字典序较大的祖先指向字典序较小的祖先, 这样就能保证最终的祖先一定是字典序最小的
- 针对第二个需求, 我们可以额外引入一个计数字典, 记录祖先的频率, 每次遍历到一个新名字, 其对应的祖先的频率就加上当前的频率
- 然后最终再遍历计数字典, 将 kv 转换成结果的格式即可
- 实现
- 下面的代码中对每个步骤都有注释, 方便大家理解
复杂度
- 时间复杂度 O((N+M)logN): 假设 N 为名字个数, M 为名字对个数, 那么需要分别循环 M 和 N 合并和统计频率, 每次 find/union 操作需要 logN 时间, 所以总共复杂度就是 O((N+M)logN)
- 空间复杂度 O(N): pre 字典中存 N 个名字
代码
class Solution: def trulyMostPopular(self, names: List[str], synonyms: List[str]) -> List[str]: # 并查集变种, 先找到所有相同的名字, 然后再统计数字 # 注意祖先需要是字典序最小的, 所以需要稍微改动union逻辑 pre = {} def find(x): if x not in pre: pre[x] = x elif pre[x] != x: pre[x] = find(pre[x]) return pre[x] def union(x, y): px = find(x) py = find(y) # 保证祖先的字典序更小 if px > py: pre[px] = py else: pre[py] = px for s in synonyms: # parse两个名字, 并合并 x, y = s[1:-1].split(',') union(x, y) cnts = defaultdict(int) for t in names: i = t.find('(') # parse当前名字和频率 name = t[:i] cnt = int(t[i + 1:t.find(')')]) # 累加到祖先对应的频率中 cnts[find(name)] += cnt res = [] for k in cnts: # 转换成结果要求的格式 res.append(k + '(' + str(cnts[k]) + ')') return res
大家可以在下面这些地方找到我~😊
我的公众号: 每日精选算法题, 欢迎大家扫码关注~😊