1.数据获取

2.特征工具

1.计算已知点与其他所有点的距离
2.按照距离排序
3.找到与当前点最近的k个点
4.确定前k个点属于各个类型的概率
5.将前k个点出现频率最高的点作为当前点的预测分类

总损失 = 数据损失 + lambda正则化
lambda越大意味着惩罚力度越大，对模型复杂度容忍度降低，模型会变得更平滑，不纠结异常点，但是容易欠拟合
lambda越小意味着惩罚力度越小，模型会把训练集的错误降为0，模型会变得扭曲复杂，但是容易过拟合

MSE, MAE用于回归训练（预测连续数值)

Binary Cross entropy用于二分类问题
Category Cross entropy用于多分类问题

L=-logP(x), L越大，正确概率越小

在复杂任务上用太少会欠拟合
在简单任务上用太多会过拟合

输入层
卷积层
池化层
全连接层

初始化权重矩阵
W= 0.01 * np.random.randn(Depth, Height)

长度H2 = (H1 - Fh + 2P) / S + 1
宽度W2 = (W1 - Fw + 2P) / S + 1