前面我们已经介绍了Python中字典(dict)的使用,在处理字典缺失键时,一种方式是加分支判断处理,但是有点繁琐;另外一种,是使用setdefault()方法,似乎已经简化了缺失值的处理。但是,setdefault()方法,其实还是有两个问题的:1、setdefault()这个方法的名字比较怪,对不熟悉的童鞋来说,可读性比较差,需要在脑子里绕一会儿,一时半会儿难以理解这个代码要干啥;2、还是不够高效,代码行数似乎还可以精简
针对缺失键的场景,Python提供了更加好用的工具,这就是collections包中的defaultdict。
本文的主要内容大致如下:1、回顾一下使用dict在应对缺失值的做法2、defaultdict的使用
dict缺失键的常规做法以人员按照年龄的分组计数为例,来说明缺失值的应对场景。首先生成测试数据,然后以常规的分支判断来统计:
执行结果:
我们也可以试着用前面提到过的setdefault()方法来处理,可以把分支判断的代码省掉:
虽然有点奇怪……接下来试试defaultdict来处理。
defaultdict的使用简单看下defaultdict的定义:
传入一个default_factory的“函数”,这个函数会在当key不存在时,被调用,用来生成一个新的默认值。
接下来,看下上面的例子,使用defaultdict的实现:
执行结果:
可以看到,使用defaultdict时,我们直接通过索引的方式对不存在的key进行索引并执行更新操作,一行代码就搞定了。
其内部的实现逻辑是,首先判断key不存在时,会通过构造defaultdict对象时,传入的“函数”构造一个默认值,比如:int()默认会创建一个值为0的整数对象,str()会创建一个值为""的字符串对象。
其实,当需要进行分组收集时,defaultdict会更加好用。
比如,不同于前面的分组计数,我们这次要把每个年龄的人名都放在一起,放到一个list中,我们通过defaultdict来实现:
代码中,我们使用list作为工厂函数进行默认值的构造,当key不存在时,创建一个空列表对象。
执行结果:
我们还可以自定义工厂函数来指定默认值,比如,我们默认每个人的年龄都是18:
执行结果:
首次访问时,不存在,则会创建默认值18。
前面,之所以在函数上面打了引号,其实并不一定只能是函数,其实,只要是可调用的对象,比如,我们传入一个自定义类名,则会默认调用其__init__方法:
执行结果:
总结关于字典中缺失值处理的场景,本文首先介绍了dict中常规的分支判断的处理方法,以及通过setdefault()简化分支处理的方法。之后,引入defaultdict,介绍了更加灵活、强大的处理方法。根据实际使用场景,可以自行选择!