NC23053

题意

给你一个字符串s,给你T组数据,每组数据输入一个字符串t,对该字符串判断是否为s的子串,若为子串则输出"YES"否则输出"NO"。
1 s 1 e 6 1 T 1 e 6 1 t 1 e 6 1\leq s \leq 1e6 \quad 1\leq T \leq 1e6 \quad 1\leq \sum |t| \leq 1e6 1s1e61T1e61t1e6

思路

预处理 二分查找 O ( t l o g s ) O(\sum|t|log|s|) O(tlogs) 最坏复杂度 2 e 7 2e7 2e7
数据范围这么大,暴力 O ( s t ) O(|s| \sum |t|) O(st)是肯定要超时的,贪心每次必取s串中的第一个没用过的字母和对应的t的字母进行匹配,这样才能让后面的选择余地更大。
一开始我想到的是将s所有的字符储存入vector中,然后维护查找的起始点,查找所需字符,如果不超过vector的范围,则更新查找的起始点为查找到的对应下标,然后继续查找。
后来看了别人的代码才知道更优秀的操作是把字符分类将其下标放入不同的vector容器中再用库函数upper_bound查找,这样每次查找的时候就直接去所要查找的字符的vector数组中查找是否存在大于起始点的数。
这里我WA了很多次,因为我一开始的的起始点idx设为了0,然而存在第一个s串的第一个字符和t串的第一个字符相同的情况,而upper_bound找的是第一个大于idx的位置,只需将idx改为-1即可。

#include<bits/stdc++.h>
using namespace std;
typedef long long ll;
typedef pair<int,int>P;
const double eps = 1e-8;
const int NINF = 0xc0c0c0c0;
const int INF  = 0x3f3f3f3f;
const ll  mod  = 1e9 + 7;
const ll  maxn = 1e6 + 5;
 
char s[maxn],t[maxn];
vector<int> V[26];
 
int main(){
    ios::sync_with_stdio(false);
    cin.tie(0);
    int T;
    cin>>s>>T;
    int ls=strlen(s);
    for(int i=0;i<ls;i++){
        V[s[i] - 'a'].push_back(i);//分类将其对应的位置放入不同的vector
    }
    while(T--){
        cin>>t;
        int lt=strlen(t);
        int idx=-1;
        bool flag=true;
        for(int i=0;i<lt;i++){
            int k=t[i]-'a';
            int pos=upper_bound(V[k].begin(),V[k].end(),idx)-V[k].begin();
            if(pos==V[k].size()){//若找不到则upper_bound的返回值为V[k].end(),减去V[k].begin()结果为V[k].size()
                flag=false;
                break;
            }
            idx=V[k][pos];
        }
        cout<<(flag?"Yes":"No")<<'\n';
    }
    return 0;
}