线性回归

问：什么是回归？哪些模型可用于解决回归问题？

回归是一种监督学习算法，通过建立模型来预测应变量与自变量之间关系的方法，

常见的回归模型有：线性回归，多项式回归，支持向量机回归（SVR），岭回归和Lasso回归

问：什么是线性回归？什么时候使用它？

线性回归是用线性方程拟合因变量与自变量关系的方法

适用于变量间存在线性关系且独立同方差

问：什么是正态分布？

正态分布是一种对称的连续概率分布，均值——>中心位置，标准差——>宽度

问：如何检查变量是否遵循正态分布?

绘制散点图或直方图，如果呈现两边低中间高，那么遵循正态分布

问：什么是梯度下降？它是如何工作的？

梯度下降是一种优化算法，用于优化模型参数，以最小化损失函数。

它通过迭代地更新参数，沿着目标函数梯度的反方向（即下降最快的方向）移动，逐步逼近函数的最小值点

初始化参数——>计算梯度——>更新参数——>迭代

问：什么是正规方程？

正规方程是一种用于求解线性回归最优参数的解析方法。它通过矩阵运算直接计算参数，无需迭代。

问：什么是SGD-随机梯度下降？与通常的梯度下降有何不同？

BGD：每次迭代使用整个训练集来计算梯度

SGD：每次迭代只使用一个样本来计算梯度

MBGD：每次使用一个小批量样本来计算梯度

问：有哪些评估回归模型的指标?

MAP（percent）E：预测值与真实值之间差的绝对值的百分比的平均值

MA（Average）E：预测值与真实值之间差的绝对值的平均值

MS（Square）E：预测值与真实值之间差的平方的平均值

RMSE：MSE的平方根

R_2分数

聚类

问：K-means是如何工作的，K值如何确定

常用肘部法则、轮廓系数或结合业务先验确定

问：K_Means和KNN有什么区别？

K-Means 是一种聚类算法，用于将数据划分为预设数量的簇；而 KNN 是一种分类或回归算法，通过计算新样本与已标记样本的距离来预测其类别或值。

正则化

问：什么是维度灾难？

维度灾难是指在高维空间中，数据点变得稀疏，距离度量失效，计算复杂度急剧增加，导致模型性能下降的现象。

问：什么是PCA降维？

PCA（主成分分析）是一种常用的降维技术，通过将原始数据投影到新的坐标系中，使数据在新坐标轴上的方差最大化，从而提取最重要的特征（主成分），去除冗余信息，降低数据维度，同时尽可能保留原始数据的结构和信息。

问：什么是正则化？

正则化是一种用于防止机器学习模型过拟合的技术，通过在损失函数中加入正则项来限制模型的复杂度，从而提高模型的泛化能力。

问：L1正则化、L2正则化和Dropout有什么区别？

L1正则化：通过在损失函数中加入参数的绝对值和作为正则项，使部分参数为0，实现特征选择，减少模型复杂度。

L2正则化：通过在损失函数中加入参数的平方和作为正则项，使参数值变小，平滑模型，提高泛化能力。（可以和L1混合用）

Dropout：在神经网络训练中随机丢弃部分神经元，防止模型对特定神经元过度依赖，增强泛化能力。

问：为什么要对数据进行归一化？

在机器学习中，数据归一化可将不同量纲和范围的特征统一缩放到相近区间，从而消除量纲影响，避免数值范围大的特征主导模型训练，确保各特征同等重要，从而提升模型收敛速度和预测性能。

最大最小值归一化， Z - 分数归一化（标准化）

机器学习面试题