牛客题解官
牛客题解官
全部文章
分类
题解(475)
归档
标签
去牛客网
登录
/
注册
牛客题解官的博客
TA的专栏
74篇文章
2人订阅
牛客代码笔记-牛栋
74篇文章
239人学习
全部文章
(共763篇)
题解|实现梯度下降
梯度下降是一种在机器学习中常用的优化算法,其计算步骤如下: 初始化参数 计算梯度 本题采用MSE作为损失函数,其梯度为: 更新参数 重复上述步骤,直到收敛。 本题中采用了三种梯度下降方法,分别是批量梯度下降(batch)、随机梯度下降(stochastic)和mini-batch梯度下降...
2025-02-05
0
60
题解|生成数据集的随机子集
生成数据集的随机子集(Random Subset of Dataset)是一种常用的数据处理方法,用于从数据集中随机选择一部分数据。 标准代码如下 def get_random_subsets(X, y, n_subsets, replacements=True, seed=42): np....
2025-02-05
0
45
题解|生成多项式特征
生成多项式特征(Polynomial Features)是一种常用的数据处理方法,用于将输入特征转换为多项式特征。 标准代码如下 def polynomial_features(X, degree): n_samples, n_features = np.shape(X) # Ge...
2025-02-05
0
53
题解|根据特征阈值划分数据集
根据特征阈值划分数据集(Feature Thresholding)是一种常用的数据处理方法,用于将数据集分为两部分,一部分满足特征阈值,另一部分不满足特征阈值。 本题的关键是,要知道python中数值类型和字符串类型是不同的,不能直接比较,需要使用isinstance函数判断阈值类型,并且常用的数值...
2025-02-05
0
40
题解|生成频繁项集
频繁项集就是在交易数据中出现频率超过指定阈值的项集,常用于关联规则挖掘。 通俗点说,频繁项集就是交易数据中出现得“够多”的项集。 生成频繁项集可以归结为如下的递归过程 从频繁k项集中组合出候选k+1项集 统计候选k+1项集在交易数据中出现的次数 过滤出频繁k+1项集(出现次数大于等于min_sup...
2025-02-05
0
59
题解|k近邻算法
k近邻算法是分类算法,通过计算测试样本与训练数据之间的距离,选择距离最小的k个样本作为测试样本的邻居,并根据这些邻居的类别进行投票,最终确定测试样本的类别。 步骤: 计算测试样本与训练数据之间的距离 选择距离最小的k个样本作为测试样本的邻居 根据这些邻居的类别进行投票,最终确定测试样本的类别(采用...
2025-02-05
0
45
题解|主成分分析
主成分分析是一种将高维数据降维的方法,它通过将高维数据投影到低维空间,来保留数据的主要特征。 在本题中,PCA的实现方式是基于特征值分解的,其具体步骤如下: 1. 标准化数据 将输入数据标准化,使得每个特征的均值为0,方差为1。 数学表达式为: 2. 计算协方差矩阵 计算标准化后的数据协方差...
2025-02-05
0
45
题解|交叉验证数据拆分
交叉验证是一种评估机器学习模型性能的方法,它通过将数据集分为训练集和测试集,来评估模型的性能。 其目的在于评估模型在不同数据集上的表现,以确保模型的泛化能力;并且在数据量较少时,可以有效地评估模型的性能。 本题中要求了将数据集分为k折,并且要求了随机种子,但是只需要在采样之前进行一次随机打乱即可。 ...
2025-02-05
0
39
题解|实现 k-Means 聚类算法
k-Means 聚类算法(k-Means Clustering)是一种常用的聚类算法,用于将数据集分为个簇。具体步骤如下: 随机选择个点作为初始聚类中心。 将每个点分配到最近的聚类中心 本题使用欧几里得距离作为距离度量,即 更新聚类中心为每个簇的平均值。 重复步骤2和步骤3,直到聚类中心不再变...
2025-02-05
0
58
题解|检测过拟合或欠拟合
过拟合是指模型在训练数据上表现很好,但在测试数据上表现较差的现象。欠拟合是指模型在训练数据上表现较差,但在测试数据上表现较好的现象。 本题中直接给出了训练数据上的准确率和测试数据上的准确率,所以只需要按照题意进行判断即可。 标准代码如下 def model_fit_quality(training_...
2025-02-05
0
54
首页
上一页
17
18
19
20
21
22
23
24
25
26
下一页
末页