数据工程之道:设计和构建健壮的数据系统
[美]乔·里斯(Joe Reis),[美]马特·豪斯利(Matt Housley)著
机械工业出版社,2024年2月出版
1.1. 读薄率书籍总字数473千字,笔记总字数109584字。
读薄率109584÷473000≈23.17%
1.2. 读厚方向Data Mesh权威指南
数据的边界:隐私与个人数据保护
数据保护:工作负载的可恢复性
数据质量管理:数据可靠性与数据质量问题解决之道
Julia数据科学应用
MLOps权威指南
数据自助服务实践指南:数据开放与洞察提效
商战数据挖掘:你需要了解的数据科学与分析思维
Spark快速大数据分析(第2版)
1.3. 笔记--章节对应关系笔记章节字数发布日期 2024年读数据工程之道:设计和构建健壮的数据系统01数据工程概述第1章 数据工程概述417010月7日读数据工程之道:设计和构建健壮的数据系统02数据工程师第1章 数据工程概述509610月8日读数据工程之道:设计和构建健壮的数据系统03数据工程生命周期(上)第2章 数据工程生命周期242310月9日读数据工程之道:设计和构建健壮的数据系统04数据工程生命周期(下)第2章 数据工程生命周期396210月10日读数据工程之道:设计和构建健壮的数据系统05底层设计(上)第2章 数据工程生命周期386710月11日读数据工程之道:设计和构建健壮的数据系统06底层设计(下)第2章 数据工程生命周期292110月12日读数据工程之道:设计和构建健壮的数据系统07数据架构的原则第3章 设计好的数据架构491510月13日读数据工程之道:设计和构建健壮的数据系统08主要架构概念第3章 设计好的数据架构241010月14日读数据工程之道:设计和构建健壮的数据系统09示例和类型第3章 设计好的数据架构259710月15日读数据工程之道:设计和构建健壮的数据系统10技术选择第4章 根据数据生命周期选择技术304110月16日读数据工程之道:设计和构建健壮的数据系统11云经济学第4章 根据数据生命周期选择技术347010月17日读数据工程之道:设计和构建健壮的数据系统12开源软件第4章 根据数据生命周期选择技术305610月18日读数据工程之道:设计和构建健壮的数据系统13无服务器第4章 根据数据生命周期选择技术251810月19日读数据工程之道:设计和构建健壮的数据系统14源系统第5章 源系统中的数据生成303110月20日读数据工程之道:设计和构建健壮的数据系统15源系统实际细节(上)第5章 源系统中的数据生成269710月21日读数据工程之道:设计和构建健壮的数据系统16源系统实际细节(下)第5章 源系统中的数据生成310910月22日读数据工程之道:设计和构建健壮的数据系统17存储的原材料第6章 存储376210月23日读数据工程之道:设计和构建健壮的数据系统18数据存储系统(上)第6章 存储280610月24日读数据工程之道:设计和构建健壮的数据系统19数据存储系统 (下)第6章 存储267410月25日读数据工程之道:设计和构建健壮的数据系统20数据工程存储抽象第6章 存储398810月26日读数据工程之道:设计和构建健壮的数据系统21数据获取第7章 获取266510月27日读数据工程之道:设计和构建健壮的数据系统22获取阶段考虑因素第7章 获取277710月28日读数据工程之道:设计和构建健壮的数据系统23批量获取的考虑因素第7章 获取226810月29日读数据工程之道:设计和构建健壮的数据系统24获取数据的方式第7章 获取344610月30日读数据工程之道:设计和构建健壮的数据系统25查询第8章 查询、建模和转换376711月2日读数据工程之道:设计和构建健壮的数据系统26数据建模第8章 查询、建模和转换344811月3日读数据工程之道:设计和构建健壮的数据系统27转换第8章 查询、建模和转换484211月4日读数据工程之道:设计和构建健壮的数据系统28数据服务常见关注点第9章 为分析、机器学习和反向ETL提供数据服务271211月5日读数据工程之道:设计和构建健壮的数据系统29分析第9章 为分析、机器学习和反向ETL提供数据服务411011月6日读数据工程之道:设计和构建健壮的数据系统30机器学习第9章 为分析、机器学习和反向ETL提供数据服务384811月7日读数据工程之道:设计和构建健壮的数据系统31安全和隐私第10章 安全和隐私390011月8日读数据工程之道:设计和构建健壮的数据系统32序列化和云网络附录A 序列化和压缩技术的细节附录B 云网络234411月9日读数据工程之道:设计和构建健壮的数据系统33未来第11章 数据工程的未来294411月10日$总计109584$2. 亮点2.1 详述什么叫数据工程数据工程不同于软件工程
有自己的特色、特点
2.2 流和批处理的比较批处理源远流长
但是流技术的发展,渐渐有取代之势
还有微批处理
2.3 数据分层和冷热根据数据冷热不同进行数据分层
不同温度的数据处于不同的层次
说到底,就是具体数据具体分析
2.4 数据工程师和其他角色的关系和区别描述了数据工程师的主要工程
同时也指出了不同角色和数据工程师之间的关系和区别
尤其是数据科学家和软件工程师
3. 感想3.1 这个笔记好长啊如果没有记错的话,这个更新时长和字数,应该是除了学中项、高项之外的最多的笔记了
3.2 随着数据的不断增长,数据工程出现了事物的发展都是有一个过程的
数据不到一定的级别,一定的量级,数据工程不会出现
数据工程有自己的规律和规则,需要根据自身的情况实施
3.3 既要适应现实需求,又要有一定的前瞻性在进行数据工程时,既要根据该工程的实际情况选择合适的工具和架构以及系统构建
同时,也要有一定的前瞻性,用于适应未来的变化
但是,也不同太超前了,太超前了也往往意味着失败,过犹不及
3.4 好书,推荐阅读