可用性|量化用户研究：可用性测试( 二 )

随机性：考虑所有重要变量，设计理想样本，合理合并用户群组。
测试数据：现场/远程测试，观察记录用户用户行为，与用户互动深入挖掘问题。
完成率：即成功率，完成=1、失败=0，完成率=完成任务用户数/用户总数。
可用性问题：根据问题出现的频率和影响程度评估严重性、优先级。
任务时间：任务完成时间、直到用户失败所用的时间、任务总时间。
出错数：尝试任务产生的无意识的出错数量，诊断失败原因，预判可能出现的场景。
满意度评分：使用标准化可用性问卷，回收数据计算得出。
复合分数：复合型总结可为用户体验提供更好的总体描述。
2. 可用性测试问卷经过长期的研究和市场验证，目前已沉淀出很多标准化的可用性问卷，不同的问卷的评估针对性不一样，可以满足大部分用研需求。
使用标准化的问卷是因为这些问卷是经过大量的使用后验证校准后产生的，是被认可具有通识性的衡量标准，这些问卷都具备客观性、重复性、量化、经济、沟通、科学的普适性的优质属性。
（1）标准化的可用性测试问卷
问卷类型主要可以分为以下两大类：

文章插图
列表中的问卷大部分是需要缴纳一定的费用后才能使用，但其中系统可用性整体评估问卷、软件可用性问卷、场景后问卷是标准可用性问卷中可以免费使用的。
应用广泛且被专家推荐的测试问卷是：软件可用性问卷主要针对系统或功能进行整体评估，问题设计精炼清晰，使用快捷方便；单项难易度问题追求的是心理测试的简单和适用性，有5分和7分制，7分制的可靠性更高；主观脑力负荷问题是在线测试，灵敏性更好。
综合评估下，软件可用性问卷（Software Usability Scale，SUS）是设计日常中最合适最经济实用的测试问卷。
（2）软件可用性问卷（SUS）
软件可用性问卷是可用性测试结束时的主观性评估问卷，应用广泛，测试后该问卷使用占比约43%。
整个问卷共10题，每题为5分制，奇数项为正面描述，偶数项为反面描述，可以通过修改问题文案聚焦测试范围；如有需要可以将偶数项的问题调整为正面描述，但数据验证调整为正面描述的问卷结果与包含负面描述的问卷差异不大，不影响问卷的测试结论。
在完成测试任务后，用户需快速完成各个题目，不进行过多思考，若用户因某些原因无法完成其中某个题目，则视为选择中间值。

文章插图
（3）可用性、易用性抽取
问卷整体可以抽取部分题目作为子测量表来作为单独的问卷有针对性的进行可用性和易学性测量，可用性由问卷中1-3、5-9题构成，易学性由问卷中4、10题构成。研究表明使用子测量表对量表的可信度的减低可忽略不计（0.92 → 0.91），并且使用子测量表可减少答题时间。
（4）分值计算
得分计算：范围在0-4，每题进行转化分值；奇数题（正面）：原始分减去1，（x-1）；偶数题（负面）：5减去原始分，（5-x）

SUS总分= 所有转化过的分值相加 * 2.5, 多样本算SUS总分均值。
可用性总分=所有转化过的可用性分数相加*3.125。
易用性总分=所有转化过的易用性分数相加*12.5。

3. 统计学描述方法可用性测试因为耗费时间较长，能够参与测试的用户资源稀缺，回收样本量小能够收集到的样本量一般会比较小。
样本量小的情况下这个样本量所能概括的整体是范围比较大的，会存在较大误差，那么在较为严谨的报告中，可能需要对所得分数和除测试样本外的分值预期进行描述，这时候会涉及到统计学中常用的描述方式，即通过置信度及置信区间来描述，根据置信区间的下边界看软件是否低于行业标准。