1.自我介绍

2.讲项目和比赛

4.lightGBM和XGB的优缺点
https://zhuanlan.zhihu.com/p/24498293

5.损失函数怎么选择
https://zhuanlan.zhihu.com/p/38529433

6.数据不均衡怎么处理
一是数据层面,可以欠采样和过采样
欠采样的话将样本采样至1:1,而且为了不浪费数据,采用ensemble,过采样的话采用smote算法,或者数据不采样,只调整分类阈值
二是模型层面,可以使用代价敏感学习或者转换成one class问题
三是评价层面,选用合理的指标,比如少数类的召回率,auc等等
一个合理且简单的方法是:采用随机森林等集成算法降低过拟合风险,然后调整分类阈值规避采样问题,然后选用合理的评估指标防止偏见

7.编程1
把两个元祖对应位置映射成字典:如(1,2,3)(4,5,6)

dict(zip(a,b))

8.编程2
把数组,排序后是否保留着原顺序,如[2,3,1][5,6,4] 是 [2,3,1][5,8,6] 否

def order(a,b):
    d=dict(zip(a,b))
    di=dict(zip(sorted(a),sorted(b)))
    return d==di