用户研究｜你的可用性测试到底需要多少人

本文共 2481 字，预计阅读 7 分钟。TCC 推荐：大家好，这里是 TCC 翻译情报局，我是张聿彤。可用性测试到底需要多少参与者？本文作者经常被问及。由五名参与者进行的可用性研究将发现超过 80% 的界面问题，他介绍得出该结论的依据，并且统计抽样方法也得出了相同结论。5-10 名参与者是一个合理的基线范围，应在每次研究之前进行评估，并附上了需要考虑的一些事项。

你需要测试超过 5 个用户吗？

我回来了！为沉默道歉。我刚从一场迷失中恢复过来，之前一个月都无法做太多事情。我的身体还未完全恢复，但可以复工和使用电脑了！欢呼！

所以人们经常问我：我们的可用性测试需要找多少个用户？

这个问题是用研人员和利益相关者间存在大量争论的根源 。作为专业人士，我们的目标是可靠性与业务目标及其他影响因素（例如时间和预算）之间取得平衡。这意味着我们应识别出不同样本量测试中潜在的风险和影响，并为不同研究项目推荐最佳的小组人数规模……

通常，在不清楚可用性测试内如何及什么环节使用这些用户，用研人员就接受了关于可用性研究流行的人数建议。典型例子是尼尔森 (Nielsen) 的建议：“由五名参与者进行的可用性研究将发现超过 80% 的界面问题”。这个著名的建议基于维尔奇 (1992) 和尼尔森 (1993) 的研究。

根据麦斯菲尔德 (2009) 的说法，他们是这样得出这个结论的：“100 组 5 名用户参加发现界面问题。该研究的确发现，在所有 100 组中发现的问题的平均百分比约为 85%。然而，这个数字有 95 % 的置信水平和 ±18.5% 的误差范围。这意味着对于任何一个特定五人组，发现问题的百分比有 95% 的可能性在 66.5%-100% 的范围内。事实上，一些五人组确实（实际上）识别了所有问题; 然而，一个五人组只发现了 55% 的问题。”

最近，福克纳 (2003) 尝试使用统计抽样方法回答同样的问题。她发现，平均而言，尼尔森的预测是正确的。在 100 次模拟测试中测试 5 名用户，发现平均 85% 的可用性问题是在更大的群体中发现的。然而，当仔细查看数据时，由 5 名参与者组成的小组发现的可用性问题的范围从几乎 100% 到只有 55% （类似于早期的研究）。这对用研人员意味着什么？当我们只依赖 5 名用户时，我们冒着错过几乎一半可用性问题的风险。

回顾福克纳的结果，我们看到增加参与者的数量，可以解决问题并提高研究结果的可靠性。更具体地说，10 名参与者平均可以发现 95% 的问题（范围从82% 到 100% ）。参与者增加到 15 名可以平均识别 97% 的问题（范围为 90% 到 100%）。

福克纳 (2003) 的表格显示了不同的参与者群体规模如何影响研究达到问题发现的水平

当然，招募超过 5 名用户并不总是可行的，而且我们不希望一次发现所有可用性问题！那么应该怎么做呢？

就像用户研究存在诸多方面，没有一种适合所有方面的方法我们可以采用！答案取决于许多因素，应在每次研究之前进行评估。需要考虑的一些因素如下：

研究的影响结果：如果你没有尽可能多地发现可用性问题，会有什么风险？与测试购物 app 中的新功能相比，测试一个以人们生命为代价的系统时，可用性问题带来的风险会更高。影响越大，你应该招募的参与者就越多。
正在测试的产品/系统的复杂性：最佳小组规模应受研究复杂性的影响，更复杂的研究需要更多的参与者。可以通过一些标准来评估研究的复杂性：被测系统的复杂性、所用任务的范围和复杂性、参与者的多样性等。
目标用户群体 ：如果你正在开发存在不同用户类型的产品，你测试来自所有类型的用户以获得有效结果。例如，如果你有两种不同的用户类型，你需要从每个类型（例如5个卖家和 5个买家）中招募一个具有代表性的用户样本。
开发周期的阶段：位于越早的开发过程，就越有可能发现影响产品功能的严重错误。因此，可以从招募较小的样本开始。随着产品变得更改善和更优化，可用性问题更难发现，需要更大的样本。
用户必须使用的主线任务：测试的任务越多越复杂，需要的用户就越多。当要求用户完成基础的主线任务时，你可以使用较小的样本量。
研究目的：研究目的会影响我们需要招募多少用户。例如，出于政治原因（比如说服利益相关者）进行可用性研究需要小样本（2-3名参与者），但如果想测试新产品的可用性，则需要更大的样本来帮助我们发现尽可能多的问题。

根据麦斯菲尔德 (2009) 的评论，可以证明：“对于大多数发现问题的研究，3-20 名用户的小组规模是有效的，5-10 名参与者是一个合理的基线范围，并且小组规模应该随着研究的复杂性和背景的重要性而增加”。