牛客题解官

分类

题解(475)

/ 注册

TA的专栏 869篇文章 61人订阅

牛客代码笔记-牛栋

74篇文章 596人学习

图解HTTP-牛客面经八股

15篇文章 419人学习

图解网络模型-牛客面经八股

21篇文章 473人学习

图解Java基础-牛客面经八股

24篇文章 391人学习

图解Java多线程牛客面经八股

28篇文章 535人学习

图解JVM-牛客面经八股

11篇文章 452人学习

图解Spring-牛客面经八股

17篇文章 603人学习

图解Mybatis牛客面经八股

10篇文章 355人学习

图解Redis-牛客面经八股

17篇文章 378人学习

图解分布式-牛客面经八股

19篇文章 414人学习

图解系统设计-牛客面经八股

17篇文章 399人学习

图解操作系统-牛客面经八股

75篇文章 522人学习

图解数据库基础-牛客面经八股

26篇文章 435人学习

图解SQL-牛客面经八股

32篇文章 447人学习

图解数据库锁-牛客面经八股

32篇文章 431人学习

图解C++基础-牛客面经八股

47篇文章 387人学习

图解C++高级-牛客面经八股

32篇文章 286人学习

图解C++STL-牛客面经八股

17篇文章 393人学习

图解大模型基础-牛客面经八股

53篇文章 501人学习

图解测试基础-牛客面经八股

12篇文章 380人学习

图解测试用例设计-牛客面经八股

18篇文章 452人学习

图解机器学习-牛客面经八股

36篇文章 473人学习

图解Elasticsearch

24篇文章 412人学习

图解机器学习应用-牛客面经八股

26篇文章 464人学习

图解大模型应用-牛客面经八股

23篇文章 393人学习

图解测试开发-牛客面经八股

17篇文章 476人学习

图解Vue-牛客面经八股

44篇文章 344人学习

图解前端开发-牛客面经八股

39篇文章 519人学习

图解TCP/UDP牛客面经八股

43篇文章 442人学习

提示词工程指南

20篇文章 473人学习

全部文章（共1142篇）

题解|生成数据集的随机子集

生成数据集的随机子集（Random Subset of Dataset）是一种常用的数据处理方法，用于从数据集中随机选择一部分数据。标准代码如下 def get_random_subsets(X, y, n_subsets, replacements=True, seed=42): np....

2025-02-05

0 149

题解|生成多项式特征

生成多项式特征（Polynomial Features）是一种常用的数据处理方法，用于将输入特征转换为多项式特征。标准代码如下 def polynomial_features(X, degree): n_samples, n_features = np.shape(X) # Ge...

2025-02-05

0 131

题解|根据特征阈值划分数据集

根据特征阈值划分数据集（Feature Thresholding）是一种常用的数据处理方法，用于将数据集分为两部分，一部分满足特征阈值，另一部分不满足特征阈值。本题的关键是，要知道python中数值类型和字符串类型是不同的，不能直接比较，需要使用isinstance函数判断阈值类型，并且常用的数值...

2025-02-05

0 157

题解|生成频繁项集

频繁项集就是在交易数据中出现频率超过指定阈值的项集，常用于关联规则挖掘。通俗点说，频繁项集就是交易数据中出现得“够多”的项集。生成频繁项集可以归结为如下的递归过程从频繁k项集中组合出候选k+1项集统计候选k+1项集在交易数据中出现的次数过滤出频繁k+1项集（出现次数大于等于min_sup...

2025-02-05

0 224

题解|k近邻算法

k近邻算法是分类算法，通过计算测试样本与训练数据之间的距离，选择距离最小的k个样本作为测试样本的邻居，并根据这些邻居的类别进行投票，最终确定测试样本的类别。步骤：计算测试样本与训练数据之间的距离选择距离最小的k个样本作为测试样本的邻居根据这些邻居的类别进行投票，最终确定测试样本的类别（采用...

2025-02-05

2 161

题解|主成分分析

主成分分析是一种将高维数据降维的方法，它通过将高维数据投影到低维空间，来保留数据的主要特征。在本题中，PCA的实现方式是基于特征值分解的，其具体步骤如下： 1. 标准化数据将输入数据标准化，使得每个特征的均值为0，方差为1。数学表达式为： 2. 计算协方差矩阵计算标准化后的数据协方差...

2025-02-05

2 171

题解|交叉验证数据拆分

交叉验证是一种评估机器学习模型性能的方法，它通过将数据集分为训练集和测试集，来评估模型的性能。其目的在于评估模型在不同数据集上的表现，以确保模型的泛化能力；并且在数据量较少时，可以有效地评估模型的性能。本题中要求了将数据集分为k折，并且要求了随机种子，但是只需要在采样之前进行一次随机打乱即可。 ...

2025-02-05

0 144

题解|实现 k-Means 聚类算法

k-Means 聚类算法（k-Means Clustering）是一种常用的聚类算法，用于将数据集分为个簇。具体步骤如下：随机选择个点作为初始聚类中心。将每个点分配到最近的聚类中心本题使用欧几里得距离作为距离度量，即更新聚类中心为每个簇的平均值。重复步骤2和步骤3，直到聚类中心不再变...

2025-02-05

0 194

题解|检测过拟合或欠拟合

过拟合是指模型在训练数据上表现很好，但在测试数据上表现较差的现象。欠拟合是指模型在训练数据上表现较差，但在测试数据上表现较好的现象。本题中直接给出了训练数据上的准确率和测试数据上的准确率，所以只需要按照题意进行判断即可。标准代码如下 def model_fit_quality(training_...

2025-02-05

1 124

题解|生成二元分类的混淆矩阵

混淆矩阵是一种描述分类模型性能的矩阵，其计算公式为：其中，TP是真阳性，TN是真阴性，FP是假阳性，FN是假阴性。 TP = True Positives (真正例): 正确预测为正类的样本数量 TN = True Negatives (真阴性): 正确预测为负类的样本数量 FP = False...

2025-02-05

0 142