回归分析之最优尺度回归

接续前章，理解最优尺度回归，得跟线性回归、逻辑回归结合着对比来看。

先举个例子，在具体研究中，会经常遇到不同类型的数据，例如消费者的偏好（定序）、收入水平（定量）和性别（定类）。传统的线性回归难以直接处理定类和定序数据，而最优尺度回归却可以解决这个问题，如何解决，继续往下看。

基础认识

见文拆字，“最优尺度回归”（Optimal Scaling Regression）中的“最优尺度”，在多元统计分析中是一种为了处理非数值数据（如定类数据或定序数据）而发展出来的回归方法。

这里的“最优尺度”是一种数据转换的手段，用来尽可能多地保留原始数据的信息，同时为数据赋予一种“最优”的数值表示，使得转换后的数据能适用于线性回归等数值分析模型。

“最优”的定义主要依据是使得映射后的数值能最大程度地保留原始数据的特征和关系，同时不断缩小预测值和实际值之间的误差，提升线性回归模型对目标变量的解释力或预测精度。

在最优尺度回归中，数据的最优转换通常通过一种反复迭代的算法来实现，不断优化数据的转换方式，使得模型的预测误差最小。

背后的算法核心是交替最小二乘法（ALS）。

以下是其中几个核心步骤：

通过这样的迭代过程，最优尺度回归算法为定类和定序数据找到一个“最优”数值表示，使得数据可以被用于线性回归分析，并达到最佳解释或预测效果。

在SPSS中，当你使用最优尺度回归时，实际上是使用了一种自动化回归分析方法，结合了不同的数据尺度转换和模型选择技术。

最优尺度回归的按钮本身并不会提供明确的回归方法选择（如最小二乘法、LASSO等），而是自动根据数据类型和目标回归模型来决定使用何种技术。

这些方法包括普通最小二乘回归（OLS）、多项式回归、广义线性回归（GLM）、偏最小二乘回归（PLS）。

题外话：为何没有明确的回归方法选择？
最优尺度回归的设计是为了简化用户的操作，自动化选择最合适的回归方法。这种方法特别适合于那些对回归分析方法不确定或者对回归技术选择感到困惑的用户。其目标是减少手动调整和选择模型的繁琐步骤，使得回归分析更加智能化和高效化。

在SPSS中可以使用CATREG命令执行最优尺度回归，大致步骤如下：

某公司想要了解客户满意度与年龄、性别、收入水平之间的关系。满意度（非常满意、满意、不满意）为定序变量，性别为定类变量，收入和年龄为定量变量。通过最优尺度回归，可以将满意度转化为数值尺度，使模型识别不同变量对满意度的影响程度。

数据：

性别（定类）：男、女
年龄（定量）：20岁到60岁
收入（定量）：1000-10000元
满意度（定序）：非常满意、满意、不满意

结果：回归分析显示年龄和收入的系数较大，意味着客户满意度与年龄、收入有较高的相关性。

回归分析

客户满意度分析

数据指标

该文观点仅代表作者本人，CxHub客户体验社区平台仅提供信息存储空间服务。

复制文本链接

30读者

数据分析驱动用户研究

全部评论