异常值是指在数据集中明显偏离其他观测值的点,通常由于测量误差或数据录入错误引起。异常值可能会对模型的训练和预测产生负面影响,因此在数据预处理阶段需要进行识别和处理。常见的处理方法包括去除异常值或使用更稳健的统计方法进行分析。
缺失值是指在数据集中缺少的观测值,可能由于多种原因导致,例如数据收集过程中的错误或遗漏。缺失值的存在会影响模型的性能,因此需要采取措施进行填补。常用的填补方法包括使用均值、中位数或众数填补,或者使用更复杂的插值方法。
在本题中,我们需要先把缺失值以外的数据(包括异常值)求均值,然后使用均值填补缺失值,最后输出处理后的数据集。
标准代码
import numpy as np
def preprocess_data():
n = int(input().strip())
data = [float(input().strip()) for _ in range(n)]
data = np.array(data)
mean_value = np.mean(data[data != -1])
data[data == -1] = mean_value
processed_data = np.round(data[(data >= 200) & (data <= 800)],4)
return processed_data