异常值是指在数据集中明显偏离其他观测值的点,通常由于测量误差或数据录入错误引起。异常值可能会对模型的训练和预测产生负面影响,因此在数据预处理阶段需要进行识别和处理。常见的处理方法包括去除异常值或使用更稳健的统计方法进行分析。

缺失值是指在数据集中缺少的观测值,可能由于多种原因导致,例如数据收集过程中的错误或遗漏。缺失值的存在会影响模型的性能,因此需要采取措施进行填补。常用的填补方法包括使用均值、中位数或众数填补,或者使用更复杂的插值方法。

在本题中,我们需要先把缺失值以外的数据(包括异常值)求均值,然后使用均值填补缺失值,最后输出处理后的数据集。

标准代码

import numpy as np

def preprocess_data():
    n = int(input().strip())
    data = [float(input().strip()) for _ in range(n)]

    data = np.array(data)

    mean_value = np.mean(data[data != -1])

    data[data == -1] = mean_value

    processed_data = np.round(data[(data >= 200) & (data <= 800)],4)

    return processed_data