说了这么多理论,SSB方法到底表现如何?让我们来看看实验数据。研究团队在三个广泛使用的数据集上对SSB进行了全面测试:CIFAR-10、CIFAR-100和ImageNet。 在CIFAR-10数据集上,实验设置为6个动物类别作为正常类别,其余4个类别作为训练中的"离群"类别。此外,还从SVHN、CIFAR-100、LSUN和ImageNet测试集中抽取样本作为测试时的未见"离群"样本。标注数据量从25个到400个不等。 结果令人振奋。当仅有25个标注样本时,SSB在正常类别分类上的准确率达到91.65%,比最接近的竞争对手OpenMatch高出近6个百分点。同时,在异常检测上,SSB的AUROC指标达到94.76%,超过了所有现有方法。 更值得注意的是SSB对标注数据量的鲁棒性。当标注数据从50个减半到25个时,OpenMatch的准确率从91.73%暴跌到54.88%,而SSB仅从93.55%轻微下降到91.74%。这种稳定性对实际应用极为重要,因为在很多领域,标注数据非常稀缺。 在更复杂的CIFAR-100数据集上,实验设置了两种场景:80个正常类别(20个"离群"类别)和55个正常类别(45个"离群"类别)。每个类别的标注数量从25个到100个不等。 在55正常类别、每类25个标注样本的设置下,SSB的分类准确率达到71.00%,异常检测AUROC达到82.62%,双双超越了现有方法。尤其是与标准半监督学习方法如FixMatch相比,SSB在保持相近分类准确率的同时,将异常检测性能提升了近20个百分点。 在ImageNet-30数据集上(ImageNet的一个子集,包含30个不同类别),SSB同样表现出色。以前20类作为正常类别,后10类作为"离群"类别,SSB的分类准确率为78.47%,异常检测AUROC为90.92%,明显优于现有方法。 为了深入理解各个组件的贡献,研究团队进行了详细的消融实验。在CIFAR-10数据集上,当移除非线性投影头时,加入基于置信度的伪标签会导致异常检测性能从89.67%剧降到63.46%,证明了非线性特征分离的关键作用。 同样,当移除伪负样本挖掘时,异常检测性能从94.76%下降到90.03%。这些实验清晰地展示了SSB各组件的重要性及其协同效应。 SSB的兼容性也得到了验证。当与现有开放集半监督学习方法结合时,如MTC、T2T和OpenMatch,所有方法的分类和检测性能都得到了提升。例如,在CIFAR-100数据集上,MTC与SSB结合后,分类准确率从60.24%提升到60.42%,异常检测AUROC从69.88%提升到74.98%。