H题 - 关于交换求和次序的一点思考

\color {Maroon} { \sum_{i=1}^{n} \sum_{j=1}^{i} \cdot = \sum_{j=1}^{n} \sum_{i=j}^{n} \cdot }

\color {DarkCyan} { 1 \le j \le i \le n }

\color {DarkBlue} { \begin{pmatrix} a_{11} \\ a_{21} & a_{22} \\ a_{31} & a_{32} & a_{33} \\ \vdots & & & \ddots \\ a_{n1} & a_{n2} & a_{n3} & \cdots & a_{nn} \end{pmatrix} }

前言

本场比赛的 H 题可以使用 交换求和次序 的方法从数学角度上来直观理解贡献。~~我之前一直不会交换求和次序来着（拖走）。~~

权值计算

链接：2026牛客寒假算法基础集训营2 - H

来源：牛客网

题目描述

 function f(l, r, s)
     distinct ← ∅
     total ← 0
     current_count ← 0
     for i ← l to r do
         if s[i] ∉ distinct then
             current_count ← current_count + 1
             distinct ← distinct ∪ {s[i]}
         end if
         total ← total + current_count
     end for
     return total
 end function

如上是一段计算数组权值的伪代码，通过调用 $f(1,m,s)$ 计算一个长度为 $m$ 的数组 $s_1,s_2,\cdots,s_m$ 的权值，现在有一个长度为 $n$ 的数组 $a_1,a_2,\cdots,a_n$ ，请你求出所有非空 子数组 的权值之和。

【名词解释】

子数组：从原数组中，连续的选择一段元素（可以全选，可以不选）得到的新数组。

输入描述

每个测试文件均包含多组测试数据。第一行输入一个整数 $T\ (1\le T\le 10^4)$ ，代表数据组数，每组测试数据描述如下：

第一行输入一个整数 $n\ (1\le n\le 10^5)$ ，表示数组长度。

第二行输入 $n$ 个整数 $a_1,a_2,\cdots,a_n\ (1\le a_i\le 10^9)$ ，表示数组中的元素。

除此之外，保证单个测试文件的 $n$ 之和不超过 $10^5$ 。

输出描述

对于每一组测试数据，新起一行输出一个整数，表示所有子数组的权值之和。

示例 1

输入

2
3
1 3 1
6
1 1 4 5 1 4

输出

14
102

思路

把上面伪代码中函数的作用转为成人话就是：求出 $[l, r]$ 范围上所有前缀中，不同元素个数的累加和。例如 $[2, 4, 3, 2, 5, 4]$ ，它的前缀分别是：

$[{\color{Tan}2} ] \xrightarrow{\color{DarkOrchid}{\quad different \quad}} \color{DarkOrchid}{1}$

$[{\color{Tan}2}, {\color{Tan}4}] \xrightarrow{\color{DarkOrchid}{\quad different \quad}} \color{DarkOrchid}{2}$

$[{\color{Tan}2}, {\color{Tan}4}, {\color{Tan}3}] \xrightarrow{\color{DarkOrchid}{\quad different \quad}} \color{DarkOrchid}{3}$

$[{\color{Tan}2}, {\color{Tan}4}, {\color{Tan}3}, 2] \xrightarrow{\color{DarkOrchid}{\quad different \quad}} \color{DarkOrchid}{3}$

$[{\color{Tan}2}, {\color{Tan}4}, {\color{Tan}3}, 2, {\color{Tan}5}] \xrightarrow{\color{DarkOrchid}{\quad different \quad}} \color{DarkOrchid}{4}$

$[{\color{Tan}2}, {\color{Tan}4}, {\color{Tan}3}, 2, {\color{Tan}5}, 4] \xrightarrow{\color{DarkOrchid}{\quad different \quad}} \color{DarkOrchid}{4}$

$f(l,r) = 1 + 2 + 3 + 3 + 4 + 4 = \color{DarkOrchid}{17}$

用 C++ 不难实现上述伪代码中的函数功能，代码如下：

int f(int l, int r, std::vector<int>& arr) {
    std::set<int> s;
    int sum = 0;
    for (int i = l; i <= r; i++) {
        s.insert(arr[i]);
        sum += s.size();
    }
    return sum;
}

我们需要枚举所有子数组，注意我这里的数组是 1-based

int BF(std::vector<int>& arr) {
    int n = arr.size() - 1;
    int sum = 0;
    for (int l = 1; l <= n; l++) {
        for (int r = l; r <= n; r++) {
            sum += f(l, r, arr);
        }
    } 
    return sum;
}

可以用数学语言来重新表述这道题，其中 $D(l, k)$ 表示 $[l, k]$ 范围上不同元素的个数。

\color {DarkBlue} { \sum_{l=1}^{n} \sum_{r=l}^{n} f(l, r) = \sum_{l=1}^{n} \sum_{r=l}^{n} \sum_{k=l}^{r} D(l, k) }

不难看出当前式子的时间复杂度为 $O(n^3)$ ，所以我们需要化简这个累加式，一个常见的技巧就是交换求和次序。比如说我们有这个恒等式成立：

\color {Maroon} { \sum_{i=1}^{n} \sum_{j=1}^{i} a_{ij} = \sum_{j=1}^{n} \sum_{i=j}^{n} a_{ij} }

上面的等式就是说改变了计算顺序，依旧可以得到相同的答案。从直观上可以用矩阵来理解，左边的式子就是按行累加的结果，右边的式子就是按列累加的结果。

\color {Maroon} { \begin{pmatrix} a_{11} \\ a_{21} & a_{22} \\ a_{31} & a_{32} & a_{33} \\ \vdots & & & \ddots \\ a_{n1} & a_{n2} & a_{n3} & \cdots & a_{nn} \end{pmatrix} }

但是每次推导交换次序后的等式都画一个图的话，会很麻烦，并且这种方法无法适用于一些复杂的情况。这个时候我们就需要换一种更本质思路来解决才行。我们考虑上面等式中 $i, j$ 的范围，不难得到：

\color {Maroon} { 1 \le j \le i \le n }

对于左边的式子而言，它的意思可以看作当 $i$ 在 $[1, n]$ 上移动时，固定 $i$ ，那么 $j$ 的移动范围就是 $[1, i]$ ；同样的也可以看作当 $j$ 在 $[1, n]$ 上移动，固定 $j$ ，那么 $i$ 的移动范围就是 $[j, n]$ 。这样就能直接写出交换求和次序之后的式子。

让我们重新回到题目本身，要化简这个三重求和式，那么先化简内层的那个二重求和式。

\sum_{l=1}^{n} {\color {DarkBlue} \sum_{r=l}^{n} \sum_{k=l}^{r} D(l, k)} \longrightarrow {\color {Black} \sum_{r=l}^{n} \sum_{k=l}^{r} D(l, k)} \quad {\color {DarkCyan} (l \le k \le r \le n)}

当 $k$ 在 $[l, n]$ 上移动时，固定 $k$ ，那么 $r$ 在 $[k, n]$ 上移动。根据刚刚讲的方法，可以立即得到：

\begin{aligned} {\color {Black} \sum_{r=l}^{n} \sum_{k=l}^{r} D(l, k)} &= \sum_{k=l}^{n} \sum_{r=k}^{n} D(l, k) \\ &= \color{Purple}{\sum_{k=l}^{n} (n - k + 1) \cdot D(l, k)} \\ \end{aligned}

带回原式，于是有：

\begin{aligned} \sum_{l=1}^{n} {\color {DarkBlue} \sum_{r=l}^{n} \sum_{k=l}^{r} D(l, k)} &= \sum_{l=1}^{n} \color{Purple}{\sum_{k=l}^{n} (n - k + 1) \cdot D(l, k)} \quad \color{DarkCyan}{(1 \le l \le k \le n)} \end{aligned}

当 $k$ 在 $[1, n]$ 上移动的时，固定 $k$ ，那么 $l$ 在 $[1, k]$ 上移动。可以立即得到：

\begin{aligned} \sum_{l=1}^{n} \color{Black}{\sum_{k=l}^{n} (n-k+1) \cdot D(l,k)} &= \sum_{k=1}^{n} \sum_{l=1}^{k} (n-k+1) \cdot D(l,k) \\ &= \color{Salmon}{\sum_{k=1}^{n} (n-k+1) \sum_{l=1}^{k} D(l,k)} \end{aligned}

最终我们便把原式化简，其中 $D(l, k)$ 表示 $[l, k]$ 范围上不同元素的个数：

\color{MidnightBlue}{ \sum_{l=1}^{n} \sum_{r=l}^{n} f(l, r) = \sum_{l=1}^{n} \sum_{r=l}^{n} \sum_{k=l}^{r} D(l, k) = \sum_{k=1}^{n} (n-k+1) \sum_{l=1}^{k} D(l,k) }

为了把 $O(n^2)$ 的时间复杂度进一步优化，我们考虑内层的求和式可不可以优化。不难看出内层求和式实际上是一个前缀和，考虑能不能从 $k-1$ 的值推出 $k$ 的值。我们尝试先模拟一下，这里还是以 $[2, 4, 3, 2, 5, 4]$ 为例：

k = 1 \quad [2] \\ \sum_{l=1}^{k} D(l,k) = \sum_{l=1}^{1} D(l,1) = D(1, 1) = 1 \\ \begin{pmatrix} \color{Green}2 \end{pmatrix} \xrightarrow{\color{DarkOrchid}{\quad different \quad}} \begin{pmatrix} \color{Green}1 \end{pmatrix} \xrightarrow{\color{DarkOrchid}{\quad sum \quad}} {\color{CornFlowerBlue}{1}}

k = 2 \quad [2, 4] \\ \sum_{l=1}^{k} D(l,k) = \sum_{l=1}^{2} D(l,2) = D(1, 2) + D(2, 2) \\ \begin{pmatrix} \color{CornFlowerBlue} 2 & \color{Green}4 \\ & \color{Green}4 \end{pmatrix} \xrightarrow{\color{DarkOrchid}{\quad different \quad}} \begin{pmatrix} \color{CornFlowerBlue} 1 & \color{Green}1 \\ & \color{Green}1 \end{pmatrix} \xrightarrow{\color{DarkOrchid}{\quad sum \quad}} {\color{CornFlowerBlue}1} + {\color{Green}{2}} = {\color{CornFlowerBlue}{3}}

k = 3 \quad [2, 4, 3] \\ \sum_{l=1}^{k} D(l,k) = \sum_{l=1}^{3} D(l,3) = D(1,3) + D(2,3) + D(3,3) \\ \begin{pmatrix} \color{CornFlowerBlue}2 & \color{CornFlowerBlue} 4 & \color{Green} 3 \\ & \color{CornFlowerBlue}4 & \color{Green} 3 \\ & & \color{Green} 3 \\ \end{pmatrix} \xrightarrow{\color{DarkOrchid}{\quad different \quad}} \begin{pmatrix} \color{CornFlowerBlue} 1 & \color{CornFlowerBlue} 1 & \color{Green} 1 \\ & \color{CornFlowerBlue} 1 & \color{Green} 1 \\ & & \color{Green} 1 \\ \end{pmatrix} \xrightarrow{\color{DarkOrchid}{\quad sum \quad}} {\color{CornFlowerBlue}{3}} + {\color{Green}{3}} = {\color{CornFlowerBlue}{6}}

k=4 \quad [2,4,3,2] \\ \sum_{l=1}^{k} D(l,k) = \sum_{l=1}^{4} D(l,4) = D(1,4) + D(2,4) + D(3,4) + D(4,4) \\ \begin {pmatrix} \color{CornFlowerBlue} 2 & \color{CornFlowerBlue}4 & \color{CornFlowerBlue} 3 & \color{LightGray}2 \\ & \color{CornFlowerBlue}4 & \color{CornFlowerBlue} 3 & \color{Green}2 \\ & & \color{CornFlowerBlue} 3 & \color{Green}2 \\ & & & \color{Green}2 \\ \end {pmatrix} \xrightarrow{\color{DarkOrchid}{\quad different \quad}} \begin {pmatrix} \color{CornFlowerBlue} 1 & \color{CornFlowerBlue} 1 & \color{CornFlowerBlue} 1 & \color{LightGray}0 \\ & \color{CornFlowerBlue} 1 & \color{CornFlowerBlue} 1 & \color{Green}1 \\ & & \color{CornFlowerBlue} 1 & \color{Green}1 \\ & & & \color{Green}1 \\ \end {pmatrix} \xrightarrow{\color{DarkOrchid}{\quad sum \quad}} {\color{CornFlowerBlue}{6}} + {\color{Green}{3}} = {\color{CornFlowerBlue}{9}}

k=5 \quad [2,4,3,2,5] \\ \sum_{l=1}^{k} D(l,k) = \sum_{l=1}^{5} D(l,5) = D(1,5) + D(2,5) + D(3,5) + D(4,5) + D(5,5) \\ \begin {pmatrix} \color{CornFlowerBlue}2 & \color{CornFlowerBlue}4 & \color{CornFlowerBlue}3 & \color{LightGray}2 &\color{Green} 5 \\ & \color{CornFlowerBlue}4 & \color{CornFlowerBlue}3 & \color{CornFlowerBlue}2 & \color{Green} 5 \\ & & \color{CornFlowerBlue}3 & \color{CornFlowerBlue}2 & \color{Green} 5 \\ & & & \color{CornFlowerBlue}2 & \color{Green} 5 \\ & & & & \color{Green} 5 \\ \end {pmatrix} \xrightarrow{\color{DarkOrchid}{\quad different \quad}} \begin {pmatrix} \color{CornFlowerBlue} 1 & \color{CornFlowerBlue} 1 & \color{CornFlowerBlue} 1 & \color{LightGray} 0 & \color{Green} 1 \\ & \color{CornFlowerBlue} 1 & \color{CornFlowerBlue} 1 & \color{CornFlowerBlue} 1 & \color{Green} 1 \\ & & \color{CornFlowerBlue} 1 & \color{CornFlowerBlue} 1 & \color{Green} 1 \\ & & & \color{CornFlowerBlue} 1 & \color{Green} 1 \\ & & & & \color{Green} 1 \\ \end {pmatrix} \xrightarrow{\color{DarkOrchid}{\quad sum \quad}} {\color{CornFlowerBlue}{9}} + {\color{Green}{5}} = {\color{CornFlowerBlue}{14}}

k=6 \quad [2,4,3,2,5,4] \\ \sum_{l=1}^{k} D(l,k) = \sum_{l=1}^{6} D(l,6) = D(1,6) + D(2,6) + D(3,6) + D(4,6) + D(5,6) + D(6,6) \\ \begin {pmatrix} \color{CornFlowerBlue}2 & \color{CornFlowerBlue}4 & \color{CornFlowerBlue}3 & \color{LightGray}2 & \color{CornFlowerBlue}5 & \color{LightGray} 4 \\ & \color{CornFlowerBlue}4 & \color{CornFlowerBlue}3 & \color{CornFlowerBlue}2 & \color{CornFlowerBlue}5 & \color{LightGray} 4 \\ & & \color{CornFlowerBlue}3 & \color{CornFlowerBlue}2 & \color{CornFlowerBlue}5 & \color{Green} 4 \\ & & & \color{CornFlowerBlue}2 & \color{CornFlowerBlue}5 & \color{Green} 4 \\ & & & & \color{CornFlowerBlue}5 & \color{Green} 4 \\ & & & & & \color{Green} 4 \\ \end {pmatrix} \xrightarrow{\color{DarkOrchid}{\quad different \quad}} \begin {pmatrix} \color{CornFlowerBlue} 1 & \color{CornFlowerBlue} 1 & \color{CornFlowerBlue} 1 & \color{LightGray} 0 & \color{CornFlowerBlue} 1 & \color{LightGray} 0 \\ & \color{CornFlowerBlue} 1 & \color{CornFlowerBlue} 1 & \color{CornFlowerBlue} 1 & \color{CornFlowerBlue} 1 & \color{LightGray} 0 \\ & & \color{CornFlowerBlue} 1 & \color{CornFlowerBlue} 1 & \color{CornFlowerBlue} 1 & \color{Green} 1 \\ & & & \color{CornFlowerBlue} 1 & \color{CornFlowerBlue} 1 & \color{Green} 1 \\ & & & & \color{CornFlowerBlue} 1 & \color{Green} 1 \\ & & & & & \color{Green} 1 \\ \end {pmatrix} \xrightarrow{\color{DarkOrchid}{\quad sum \quad}} {\color{CornFlowerBlue}{14}} + {\color{Green}{4}} = {\color{CornFlowerBlue}{18}}

不难看出这个前缀和每次增加的值等于这个数 当前位置 减去这个数 上一次出现的位置 。令 $k$ 为当前位置， $last(a_k)$ 表示 $a_k$ 上一次出现的位置，定义函数：

pre(k) = \sum_{l=1}^{k} D(l,k)

则有状态转移方程

\color{DarkBlue} { pre(k) = pre(k-1) + k - last(a_k) }

代码

\color{Salmon}{ \sum_{k=1}^{n} (n-k+1) \cdot pre(k) }

\color{Salmon}{ pre(k) = pre(k-1) + k - last(a_k) }

#include <bits/stdc++.h>
#define int long long

void solve() {
    int n; std::cin >> n;
    std::vector<int> a(n + 1);
    std::map<int, int> last;
    for (int i = 1; i <= n; i++) std::cin >> a[i];
    int ans = 0, sum = 0;
    for (int k = 1; k <= n; k++) {
        sum += k - last[a[k]];
        ans += (n - k + 1) * sum; 
        last[a[k]] = k;
    }    
    std::cout << ans << '\n';
}

signed main() {
    std::ios::sync_with_stdio(false); std::cin.tie(nullptr);
    int T = 1;
    std::cin >> T;
    while (T--) solve();
    return 0;
}