机器学习面试题
线性回归
问:什么是回归?哪些模型可用于解决回归问题?
回归是一种监督学习算法,通过建立模型来预测应变量与自变量之间关系的方法,
常见的回归模型有:线性回归,多项式回归,支持向量机回归(SVR),岭回归和Lasso回归
问:什么是线性回归?什么时候使用它?
线性回归是用线性方程拟合因变量与自变量关系的方法
适用于变量间存在线性关系且独立同方差
问:什么是正态分布?
正态分布是一种对称的连续概率分布,均值——>中心位置,标准差——>宽度
问:如何检查变量是否遵循正态分布?
绘制散点图或直方图,如果呈现两边低中间高,那么遵循正态分布
问:什么是梯度下降?它是如何工作的?
梯度下降是一种优化算法,用于优化模型参数,以最小化损失函数。
它通过迭代地更新参数,沿着目标函数梯度的反方向(即下降最快的方向)移动,逐步逼近函数的最小值点
初始化参数——>计算梯度——>更新参数——>迭代
问:什么是正规方程?
正规方程是一种用于求解线性回归最优参数的解析方法。它通过矩阵运算直接计算参数,无需迭代。
问:什么是SGD-随机梯度下降?与通常的梯度下降有何不同?
BGD:每次迭代使用整个训练集来计算梯度
SGD:每次迭代只使用一个样本来计算梯度
MBGD:每次使用一个小批量样本来计算梯度
问:有哪些评估回归模型的指标?
MAP(percent)E:预测值与真实值之间差的绝对值的百分比的平均值
MA(Average)E:预测值与真实值之间差的绝对值的平均值
MS(Square)E:预测值与真实值之间差的平方的平均值
RMSE:MSE的平方根
R_2分数
分类
问:什么是分类?哪些模型可以解决分类问题?
分类是监督学习中的一种任务,目的是将数据划分为不同的类别
解决分类问题的模型:逻辑回归,决策树,随机森林,支持向量机(SVM),KNN
问:什么是逻辑回归?什么时候需要使用它?
逻辑回归是一种利用Sigmod激活函数将线性回归的输出映射到0-1之间概率的二分类模型。
进行二分类任务时使用它。
问:激活函数有什么作用
激活函数在神经网络中引入非线性因素,使网络能够学习和模拟复杂的非线性关系,从而提升模型对复杂数据的拟合能力。
问:有哪些评估分类模型的指标
准确率(正确预测的样本数占总样本数的比例)
精确率(预测为正的样本中实际为正的比例)
召回率(实际为正的样本中被模型预测为正的比例)
F1分数:调节精确率和召回率
混淆矩阵
yolo中:AP,MAP
问:one-hot编码有什么作用
One-Hot 编码是一种将分类变量转换为数值形式的编码方法,通过将每个类别映射到一个唯一的二进制向量来实现
将类别特征转换为机器学习模型能够处理的数值格式
聚类
问:K-means是如何工作的,K值如何确定
常用肘部法则、轮廓系数或结合业务先验确定

问:K_Means和KNN有什么区别?
K-Means 是一种聚类算法,用于将数据划分为预设数量的簇;而 KNN 是一种分类或回归算法,通过计算新样本与已标记样本的距离来预测其类别或值。
正则化
问:什么是维度灾难?
维度灾难是指在高维空间中,数据点变得稀疏,距离度量失效,计算复杂度急剧增加,导致模型性能下降的现象。
问:什么是PCA降维?
PCA(主成分分析)是一种常用的降维技术,通过将原始数据投影到新的坐标系中,使数据在新坐标轴上的方差最大化,从而提取最重要的特征(主成分),去除冗余信息,降低数据维度,同时尽可能保留原始数据的结构和信息。
问:什么是正则化?
正则化是一种用于防止机器学习模型过拟合的技术,通过在损失函数中加入正则项来限制模型的复杂度,从而提高模型的泛化能力。
问:L1正则化、L2正则化和Dropout有什么区别?
L1正则化:通过在损失函数中加入参数的绝对值和作为正则项,使部分参数为0,实现特征选择,减少模型复杂度。
L2正则化:通过在损失函数中加入参数的平方和作为正则项,使参数值变小,平滑模型,提高泛化能力。(可以和L1混合用)
Dropout:在神经网络训练中随机丢弃部分神经元,防止模型对特定神经元过度依赖,增强泛化能力。
问:为什么要对数据进行归一化?
在机器学习中,数据归一化可将不同量纲和范围的特征统一缩放到相近区间,从而消除量纲影响,避免数值范围大的特征主导模型训练,确保各特征同等重要,从而提升模型收敛速度和预测性能。
最大最小值归一化, Z - 分数归一化(标准化)