牛客题解官

题解

/ 注册

全部文章 / 题解（共587篇）

题解|决策树学习

决策树是一个用于分类和回归的模型，它通过将数据集分割成更小的子集来构建树形结构。每个内部节点代表一个特征的测试，每个分支代表测试结果，而每个叶子节点则表示最终的输出类别或值。通俗点说，就是把一堆数据按照某个特征的某个阈值去分成两份或者多份子节点，然后递归执行这种分裂直到达到某种要求。在本题中，只...

Python3

2025-02-06

0 98

题解|关联规则发现（Apriori算法）

Apriori算法是关联规则挖掘中的一种经典算法，用于发现数据集中频繁项集和关联规则。频繁项集：在数据集中频繁出现的项集。关联规则：在数据集中，若A则B的规则形式。支持度：项集A在数据集中出现的次数除以数据集的总数。通俗点说，就是项集A在数据集中出现的概率。置信度：项集A和项集B同时出现的次...

2025-02-06

0 66

题解|计算分类模型的性能指标

分类模型的性能指标包括准确率（accuracy）、精确率（precision）、召回率（recall）、F1分数（F1_score）、ROC曲线（ROC_curve）、AUC（AUC）等。本题具体使用的性能指标如下混淆矩阵（Confusion Matrix）: 其中，TP是真阳性，TN是真阴...

Python3

2025-02-06

0 73

题解|使用梯度下降实现Lasso回归

Lasso回归是一种线性回归模型，其目标函数为：其中，是模型参数，是输入特征，是输出标签，是正则化参数。本算法的关键在于对权重进行L1正则化，即在每次迭代中对权重进行L1范数惩罚。梯度下降的公式为：其中，是第次迭代时的权重，是学习率，是目标函数在处的梯度。而f(w_t)正是Lasso回归...

2025-02-06

0 84

题解|实现梯度下降

梯度下降是一种在机器学习中常用的优化算法，其计算步骤如下：初始化参数计算梯度本题采用MSE作为损失函数，其梯度为：更新参数重复上述步骤，直到收敛。本题中采用了三种梯度下降方法，分别是批量梯度下降（batch）、随机梯度下降（stochastic）和mini-batch梯度下降...

2025-02-05

0 114

题解|生成数据集的随机子集

生成数据集的随机子集（Random Subset of Dataset）是一种常用的数据处理方法，用于从数据集中随机选择一部分数据。标准代码如下 def get_random_subsets(X, y, n_subsets, replacements=True, seed=42): np....

2025-02-05

0 85

题解|生成多项式特征

生成多项式特征（Polynomial Features）是一种常用的数据处理方法，用于将输入特征转换为多项式特征。标准代码如下 def polynomial_features(X, degree): n_samples, n_features = np.shape(X) # Ge...

2025-02-05

0 74

题解|根据特征阈值划分数据集

根据特征阈值划分数据集（Feature Thresholding）是一种常用的数据处理方法，用于将数据集分为两部分，一部分满足特征阈值，另一部分不满足特征阈值。本题的关键是，要知道python中数值类型和字符串类型是不同的，不能直接比较，需要使用isinstance函数判断阈值类型，并且常用的数值...

2025-02-05

0 86

题解|生成频繁项集

频繁项集就是在交易数据中出现频率超过指定阈值的项集，常用于关联规则挖掘。通俗点说，频繁项集就是交易数据中出现得“够多”的项集。生成频繁项集可以归结为如下的递归过程从频繁k项集中组合出候选k+1项集统计候选k+1项集在交易数据中出现的次数过滤出频繁k+1项集（出现次数大于等于min_sup...

2025-02-05

0 119

题解|k近邻算法

k近邻算法是分类算法，通过计算测试样本与训练数据之间的距离，选择距离最小的k个样本作为测试样本的邻居，并根据这些邻居的类别进行投票，最终确定测试样本的类别。步骤：计算测试样本与训练数据之间的距离选择距离最小的k个样本作为测试样本的邻居根据这些邻居的类别进行投票，最终确定测试样本的类别（采用...

2025-02-05

0 81