世良情感网

18、Python之容器：字典(dict)缺失值处理不够优雅？试试defaultdict

南宫理的日志录 2024-09-21 12:38:18

引言

前面我们已经介绍了Python中字典（dict）的使用，在处理字典缺失键时，一种方式是加分支判断处理，但是有点繁琐；另外一种，是使用setdefault()方法，似乎已经简化了缺失值的处理。但是，setdefault()方法，其实还是有两个问题的：1、setdefault()这个方法的名字比较怪，对不熟悉的童鞋来说，可读性比较差，需要在脑子里绕一会儿，一时半会儿难以理解这个代码要干啥；2、还是不够高效，代码行数似乎还可以精简

针对缺失键的场景，Python提供了更加好用的工具，这就是collections包中的defaultdict。

本文的主要内容大致如下：1、回顾一下使用dict在应对缺失值的做法2、defaultdict的使用

dict缺失键的常规做法

以人员按照年龄的分组计数为例，来说明缺失值的应对场景。首先生成测试数据，然后以常规的分支判断来统计：

执行结果：

我们也可以试着用前面提到过的setdefault()方法来处理，可以把分支判断的代码省掉：

虽然有点奇怪……接下来试试defaultdict来处理。

defaultdict的使用

简单看下defaultdict的定义：

传入一个default_factory的“函数”，这个函数会在当key不存在时，被调用，用来生成一个新的默认值。

接下来，看下上面的例子，使用defaultdict的实现：

执行结果：

可以看到，使用defaultdict时，我们直接通过索引的方式对不存在的key进行索引并执行更新操作，一行代码就搞定了。

其内部的实现逻辑是，首先判断key不存在时，会通过构造defaultdict对象时，传入的“函数”构造一个默认值，比如：int()默认会创建一个值为0的整数对象，str()会创建一个值为""的字符串对象。

其实，当需要进行分组收集时，defaultdict会更加好用。

比如，不同于前面的分组计数，我们这次要把每个年龄的人名都放在一起，放到一个list中，我们通过defaultdict来实现：

代码中，我们使用list作为工厂函数进行默认值的构造，当key不存在时，创建一个空列表对象。

执行结果：

我们还可以自定义工厂函数来指定默认值，比如，我们默认每个人的年龄都是18：

执行结果：

首次访问时，不存在，则会创建默认值18。

前面，之所以在函数上面打了引号，其实并不一定只能是函数，其实，只要是可调用的对象，比如，我们传入一个自定义类名，则会默认调用其__init__方法：

执行结果：

总结

关于字典中缺失值处理的场景，本文首先介绍了dict中常规的分支判断的处理方法，以及通过setdefault()简化分支处理的方法。之后，引入defaultdict，介绍了更加灵活、强大的处理方法。根据实际使用场景，可以自行选择！

0 阅读：0

南宫理的日志录

简介：深耕IT科技，探索技术与人文的交集

作者最新文章

科技TOP

科技最新文章

热门分类

军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球健康房产家居星座旅游健身时尚科学探索职场育儿股票教育影视情感热点推荐热榜中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期青骄第二课堂少年风超级父母麻辣老师街拍恋爱攻略婚姻情趣正能量