
上一篇讲了量表不同等级的适用情况,这一篇续着聊聊不同等级/评分间,他们如何转换,能够让数据可比。
在跨国研究、纵向研究及多轮数据采集等场景中,评分制的变动是不可避免的。例如,调查者可能因为受访者群体的文化差异或研究目标的不同,选择使用不同的评分制。
然而,当研究中涉及到的数据跨越不同的评分体系时,如何将这些分数有效转换,并确保数据的可比性和一致性,便成为一个至关重要的问题。
为了确保数据的有效比较,学术界提出了不同的分数转换方法,尤其是线性转换方法。通过这一方法,研究者能够将不同评分制的数据统一至一个共同的尺度,从而进行比较分析。
简单直观,易于计算,适合用于大多数标准化转换场景。
在最常见的评分制转换中,如果数据分布较为平稳且符合线性转换的条件,则可以直接进行线性转换。
线性转换是一种非常直观且易于实现的方法。其基本思路是将原评分制的得分映射到目标评分制的区间内。
这种转换基于一个假设:原评分制和目标评分制之间存在一个线性关系,得分的相对差异保持不变,只有量级被放大或缩小。
线性转换的常见公式如下:

其中:
A 和 B 分别是目标评分制的最小值和最大值。
a 和 b 是原评分制的最小值和最大值。
x 是原评分制的得分。
Y 是转换后的目标评分制得分。
例如,若原评分制为5点制(最小值1,最大值5),目标评分制为10点制(最小值1,最大值10),若某一受访者的得分为3,则可以使用上述公式进行转换:

虽然线性转换在许多情况下是有效的,但它并不适用于所有类型的数据,尤其是当数据本身呈现非线性分布时。举个例子,在某些评分体系中,受访者的反应可能并不是完全等距的,尤其是当评分项涉及到复杂的情感或多维度评价时。在这些情况下,简单的线性转换可能会丧失数据中的重要信息。
因此,学术界也提出了基于非线性映射的转换方法。例如,使用Z得分标准化、分位数转换,或者采用更复杂的回归分析技术来调整数据。这些方法能在不失去原有数据结构的情况下,更精确地进行评分制的转换。
尤其是当评分制的范围进一步扩大至11点制或更多时,受访者的反应模式开始变得更加分散,转换后数据的相关性下降。

在一些复杂的研究中,标准化和回归分析方法等也成为分数转换中的常见手段。
标准化法(Z-score转化法)通常用于将数据转化为标准正态分布(均值为0,标准差为1)的形式。它基于统计学中的标准化概念,可以消除不同评分制之间的规模差异,使得不同评分制的数据更具可比性。
标准化转化的基本公式是:

假设原始5分制的得分为3分,原评分制的均值为3.5,标准差为1.2:

此时,得分3在5分制中的标准化值为-0.4167。
局限性:但它仅适用于数据接近正态分布的情况,对于偏态分布数据效果较差,而且转换后数据可能会失去原始的评分制含义。
详细关于此方法的说明,可参考数据标准化部分的文章内容。
累积频率法基于数据的分布特征,采用“百分位数”或“排名”的方式进行转换,不需要复杂的数学公式。
其理论依据是频率分布中的相对位置,而不是数值本身。该方法源于非参数统计方法。
假设5分制的数据如下:[1, 2, 3, 4, 5],将其转换到10分制。假设5分制的“3”对应累积频率百分位数为60%,则在10分制中,60%的位置为6。因此,得分3将转换为6。
优势:
① 不依赖于数据的数值特性,适合处理非正态分布数据。
② 可以保留数据的排序信息,有时比其他方法更能反映数据的实际情况。
局限性:
① 需要大量数据来获得准确的累积百分位数。
② 转换过程中可能丢失部分信息,尤其在样本量小的情况下。

加权转换法通常应用于多个评分维度的加权平均计算中,特别是当评分制的不同部分具有不同重要性时。
公式如下:

其中,w_i 为第i维度的权重,x_i 为第i维度的得分。
这种方法适合用于有多个维度的复杂评分系统。
假设评分制分为两个维度(每个维度满分5分),权重分别为0.6和0.4,得分分别为3和4。加权得分为:

优势:
① 可以综合多维度信息,反映出更加准确的评分。
② 可以灵活调整维度的重要性。
局限性:
① 需要明确的权重设置。
② 对权重的误设定可能会导致结果不准确。
回归模型通常用于复杂的数据关系或非线性关系,能够帮助我们在不同的量表评分之间建立更精确的转换规则。
这种方法尤其适用于那些量表之间不完全是线性关系的情况,或者当我们有多种因素需要同时考虑时。
在评分制转换中,回归模型通常用于以下两种主要情况:
直接回归转换:利用现有的评分数据,通过回归模型建立不同评分之间的关系,进而进行评分转换。
多重变量回归:当不同评分系统依赖于多个因素时,回归模型可以同时考虑多个变量来预测目标评分,这种方法特别适用于复杂的量表转换。
详细关于回归方法的介绍,请移步到回归分析相关的文章内容,此处仅做数据示例。
这通常要求我们有一批样本数据,分别对应于源评分系统(例如A系统)和目标评分系统(例如B系统)。
这些数据需要经过充分的统计分析来确认它们之间的关系。
假设我们有以下数据,展示了两个评分制(A评分和B评分)对应的样本值:

如果数据分布较为线性,我们可以选择线性回归模型。
如果数据呈现曲线关系,我们可以考虑多项式回归。
如果数据含有噪声或共线性,我们可以选择岭回归或Lasso回归来进行建模。
假设使用线性回归,我们得到以下回归公式:

这意味着,在A评分每增加1分时,B评分大约增加0.9分,且B评分的初始值(当A评分为0时)为5。
我们可以对新的A评分数据进行预测,从而得到对应的B评分。
例如,当A评分为85时,代入回归方程:

因此,A评分为85时,B评分预测为81.5。
优势:
回归模型可以通过数据驱动的方式提供较为精准的评分转换,适应不同类型的评分转换需求,还可以处理多变量之间的复杂关系(如多重回归)。
局限性:
回归模型的准确性依赖于足够的数据量,而且当使用高阶多项式回归或正则化回归时,模型可能变得复杂且难以解释。且回归模型通常依赖于一定的假设条件,如线性关系、正态分布等。
还有另一种常见的“粗暴”的转换方法:分组法。分组法将某些相邻的等级合并到同一个等级。
例如,将7点量表中的“强烈同意”和“同意”合并为5点量表中的“同意”选项。这种方法转换起来简单快捷,但对于数据的处理要求较低,可能会损失较细微的差异。
这种方法可以结合业务需要来使用。
最后附上一个综合对比表,供快速查阅。
