读DAMA数据管理知识体系指南03数据处理伦理

1. 伦理

1.1. 伦理是建立在是非观念上的行为准则

1.2. 伦理准则通常侧重于公平、尊重、责任、诚信、质量、可靠性、透明度和信任等方面

1.3. 伦理意味着“在没有人注意的情况下正确做事(Doing it right when no one is looking)”

2. 数据处理伦理

2.1. 数据处理伦理指如何以符合伦理准则的方式获取、存储、管理、使用和销毁数据

2.2. 基于伦理准则去处理数据对于任何希望从数据中持续获得价值的组织都是必要的

2.3. 数据伦理是一项社会责任问题

2.4. 核心概念

2.4.1. 对人的影响

2.4.1.1. 由于数据代表个人的特征，可被用于各类决策，从而影响人们的生活，因此必须保证其质量和可靠性

2.4.2. 滥用的可能

2.4.2.1. 滥用数据会对人和组织造成负面影响，所以需要有伦理准则来防止数据被滥用

2.4.3. 数据的经济价值

2.4.3.1. 数据存在经济价值

2.4.3.2. 需要规定数据所有权，即谁可以去使用数据及如何使用数据

2.5. 组织保护数据的动机很大程度上来自法律法规的要求

2.6. 伦理准则不仅要保护数据，而且要管理数据的质量

2.7. 许多组织未能认识到数据管理伴随的伦理义务并对其作出响应

2.7.1. 他们依然采用传统的技术观念和方式，并且声称不去理解这些数据

2.7.2. 他们认为只要遵守法律相关规定，就不会有数据处理相关的风险

2.7.3. 这是一个危险的假设

2.8. 虽然法律规定了一些伦理准则，但立法跟不上数据生态变化所带来的风险

3. 业务驱动因素

3.1. 按照符合伦理准则的方式使用数据越来越被认为是一种商业竞争优势

3.2. 遵循数据处理伦理可以提高组织本身及其数据和处理结果的可信度，建立组织与其利益相关方之间更好的关系

3.3. 数据处理不会在真空中发生，客户和利益相关方期望其业务及数据流程合乎伦理行为和结果

3.3.1. 组织构建数据处理伦理准则的主要原因是为了降低所负责的数据被员工、客户、合作伙伴滥用的风险

3.3.2. 保护数据不受犯罪分子侵犯也是一项伦理责任，即保护数据不受黑客攻击和潜在的数据泄露

3.4. 不同的数据所有权模型影响着数据处理的伦理规范要求

3.5. 首席数据官CDO、首席风险官CRO、首席隐私官CPO、首席分析官CAO等新兴角色专注于通过建立可接受的数据处理实践来控制风险

3.5.1. 伦理责任不仅限于担任这些角色的人

3.5.2. 按伦理准则进行数据处理需要全组织广泛认识到滥用数据带来的风险，并且用具有保护个人及尊重数据所有权的行为准则来作为组织认同的基础

3.6. 数据治理是一个重要的工具，可以确保谁可以使用哪些数据、什么是处理数据的合适方式等情况，为进行决策时提供了参考准则

3.6.1. 从业者必须考虑数据处理对所有利益相关方带来的伦理影响和风险，并且使用与数据质量管理类似的方式进行管理

4. 数据伦理准则

4.1. 生物伦理学以维护人类尊严为中心的公认原则为数据伦理准则提供了一个良好的起点

4.2. 尊重他人

4.2.1. 反映了对待人类最基本的伦理要求，即尊重个人尊严和自主权

4.2.2. 人们在处于“弱势群体”的情况下，应格外注意保护他们的尊严和权利

4.2.3. 当把数据作为资产时，内心一定要铭记数据也会影响、代表或触动人

4.2.4. 个人数据不同于其他原始“资产”，如石油或煤

4.2.5. 不伦理地使用个人数据会直接影响人们之间的相互交往、就业机会和社会地位

4.3. 行善原则

4.3.1. 不伤害

4.3.1.1. “不伤害”伦理准则在医学伦理学中有着悠久的历史，在数据和信息管理的背景下也有明确的应用

4.3.2. 将利益最大化、伤害最小化

4.4. 公正

4.4.1. 待人公平和公正

4.5. 尊重法律和公众利益

5. 欧盟数据保护

5.1. 强调了关于数据处理和大数据发展的“工程、哲学、法律和伦理含义”，呼吁关注维护人类尊严的数据处理，并明确提出了信息生态系统中数据处理伦理所必须遵循的四大支柱（EDPS）

5.1.1. 面向未来的数据处理条例、尊重隐私权和数据保护权利

5.1.2. 确定个人信息处理的责任人

5.1.3. 数据处理产品及服务设计及工程过程中的隐私意识

5.1.4. 增加个人的自主权

5.2. 旨在提升人类尊严和自主权

5.3. EDPS指出隐私权是人类权力的基础

6. 数据隐私法背后的原则

6.1. 公共政策和法律中试图根据在伦理准则基础上把各种是非法典化，但法律法规无法细化每一种情况

6.2. 隐私法并不新鲜

6.3. 经合组织的8项核心原则，即公平信息处理标准，旨在确保以尊重个人隐私权的方式处理个人数据

6.3.1. 数据采集的限制

6.3.2. 对数据高质量的期望

6.3.3. 为特定目的进行采集数据

6.3.4. 对数据使用的限制

6.3.5. 安全保障

6.3.6. 对开放性和透明度的期望

6.3.7. 个人挑战与自己有关数据的准确性

6.3.8. 组织遵守准则的责任

6.4. 处理个人数据时需征求其同意，该同意必须是自由给予、具体、知情和明确的肯定行为

6.5. 公平信息实践其他重点包括

6.5.1. 简化消费者选择，减轻消费者负担

6.5.2. 在信息生命周期中建议始终保持全面的数据管理程序

6.5.3. 为消费者提供不要跟踪选项(Do Not Track Option)

6.5.4. 要求明确肯定的同意

6.5.5. 关注大型平台提供商的数据采集能力、透明度以及明确的隐私声明和制度

6.5.6. 个人对数据的访问

6.5.7. 提高消费者对个人隐私保护意识

6.5.8. 设计时考虑保护隐私

7. 在线数据的伦理环境

7.1. 数据所有权

7.1.1. 与社交媒体网站和数据代理相关的个人数据控制权

7.1.2. 个人数据的下游聚合器可以将数据嵌入到个人不知道的深度配置文件中

7.2. 被遗忘的权力

7.2.1. 从网上删除个人信息，特别是调整互联网上的个人声誉

7.2.2. 该主题一般是数据保留实践的一部分

7.3. 身份

7.3.1. 拥有得到一个身份和一个准确的身份，或者选择匿名的权力

7.4. 在线言论自由

7.4.1. 表达自己的观点，而非恃强凌弱、恐怖煽动、“挑衅”或侮辱他人

8. 违背伦理进行数据处理的风险

8.1. 大部分与数据打交道的人都知道，利用数据歪曲事实是有可能的

8.1.1. 方法包括主观的数据选择、范围的操控、部分数据点遗漏

8.2. 理解数据处理伦理含义的一个方式是去检查大部分人认同的违背伦理的行为

8.3. 确保数据可信度包括对数据质量维度的度量（如准确性和时效性），还有基本级别的可信度和透明度-不使用数据欺骗或误导，以及对组织数据处理背后意图、用途和来源保持透明

8.4. 时机选择

8.4.1. 有可能通过遗漏或根据时间将某些数据点包含在报告或活动中而撒谎

8.4.2. 市场择时(Market Timing)

8.4.2.1. 这是非法的行为

8.5. 可视化误导

8.5.1. 图表和图形可用于以误导性方式去呈现数据

8.6. 定义不清晰或无效的比较

8.6.1. 从数据伦理的角度来看，不滥用统计数据也是非常必要的

8.6.2. 数据挖掘和探测

8.6.2.1. 一个最近新造的术语

8.6.2.2. 指的是数据挖掘统计调查中的一种现象，即在数据集合上执行详尽的相关性分析，本质上该数据集合是一个经过训练的统计模型

8.7. 偏见

8.7.1. 偏见是指一种有倾向性的观点

8.7.2. 在统计学中，偏见是指偏离期望值

8.7.3. 偏见可能在数据生命周期的不同时间点存在：在数据被采集或创建时，当它被选中用于分析时，甚至分析数据的方法以及分析结果的呈现方式都可能存在偏见

8.7.4. 类型

8.7.4.1. 预设结论的数据采集

8.7.4.2. 预感和搜索

8.7.4.3. 片面抽样方法

8.7.4.3.1. 抽样往往是数据采集的一个常用方法

8.7.4.4. 背景和文化

8.8. 转换和集成数据

8.8.1. 数据集成过程也有伦理上的挑战，因为数据在从系统到系统的交互过程中发生了变化

8.8.2. 对数据来源和血缘的了解有限

8.8.3. 质量差的数据

8.8.4. 不可靠的元数据

8.8.5. 没有数据修订历史的文档

8.8.5.1. 组织也应该保留与数据更改方式相关的可审计信息

8.8.5.2. 即使数据修订的意图是提高数据的质量，但这种做法可能是非法的

8.8.5.3. 数据补救应该始终遵循一个正式的、可审计的变更控制过程

8.9. 数据的混淆和修订

8.9.1. 混淆和修订数据是进行信息脱敏或信息不公开的常用方法

8.9.2. 数据聚合(Data Aggregation)

8.9.3. 数据标记(Data Marking)

8.9.3.1. 数据标记用于对敏感数据（秘密、机密、个人等）进行分类，并将其控制发布到合适的社区，如公众或供应商，甚至来自某些国家或其他社区的供应商

8.9.4. 数据脱敏(Data Masking)

8.9.4.1. 数据脱敏是一种只有提交适当数据才能解锁过程的实践

8.9.5. 当数据到达数据湖中时，首先要考虑的是对其进行敏感数据分析，并采用公认的保护方法

9. 建立数据伦理文化

9.1. 数据的伦理处理显然包括遵守法律，但也会影响数据的分析和解释方式以及数据在内部和外部的利用方式

9.2. 评审现有数据处理方法

9.2.1. 改善的第一步就是了解组织现在所处的状态

9.3. 识别原则、实践和风险因素

9.3.1. 使数据处理的伦理规范化目的在于降低数据被滥用，从而降低给客户、雇员、供应商、其他利益相关方甚至是整个组织所带来的风险

9.3.2. 组织对于数据伦理的处理方法必须符合法律和法规的合规性要求

9.3.3. 原则应与风险（如果不遵守原则可能发生的坏事情）和实践（正确的做法以避免风险）保持一致，应通过控制来支持实践

9.3.3.1. 指导性原则

9.3.3.1.1. 人们对自己的健康信息有隐私权

9.3.3.2. 风险

9.3.3.2.1. 如果可以广泛访问患者的个人健康数据，那么这些个人信息将变成公共知识，从而危及患者的个人隐私权

9.3.3.3. 实践

9.3.3.3.1. 只有护士和医生才允许访问患者的个人健康数据，并且仅用于提供护理

9.3.3.4. 控制

9.3.3.4.1. 将对包含患者个人健康信息系统的所有用户进行年度审查，以确保只有需要访问的人才能访问

9.4. 制定合乎伦理的数据处理策略和路线图

9.4.1. 价值观声明

9.4.1.1. 价值观声明描述的是一个组织的信仰

9.4.2. 符合伦理的数据处理原则

9.4.3. 合规框架

9.4.3.1. 合规框架包括驱动组织义务的因素

9.4.4. 风险评估

9.4.4.1. 风险评估定义了组织内部特殊问题出现的可能性和影响

9.4.5. 培训和交流

9.4.5.1. 培训应该包括对伦理准则的审查

9.4.5.2. 培训必须是不间断的

9.4.5.3. 交流应该覆盖到所有雇员

9.4.6. 路线图

9.4.6.1. 路线图应包括可由管理层批准的活动时间表

9.4.7. 审计和监测方法

9.4.7.1. 通过培训可以加强伦理观念和伦理准则

9.5. 采用对社会负责的伦理风险模型

9.5.1. 他们是谁

9.5.1.1. 包括他们的原籍国家、民族、族裔和宗教特征

9.5.2. 他们做什么

9.5.2.1. 包括政治、社会和潜在的犯罪行为

9.5.3. 他们在哪儿生活；他们有多少钱；他们买什么；他们与谁交谈，给谁发短信或者邮件

9.5.4. 他们被如何对待

9.5.4.1. 包括支出的分析，如评分和偏好跟踪，这些将会被标记为最终特权和未来的业务

9.6. 风险模型可以被用于决定项目是否被执行，同时也影响项目怎样实施

9.7. 因为数据分析是一个非常复杂的项目，人们可能看不清伦理上的挑战

9.7.1. 每个组织都需要积极地识别潜在风险

9.7.2. 需要保护那些确实看到风险并提出疑虑的举报人

9.7.3. 自动化监控已经无法防止不符合伦理要求的活动

9.7.4. 分析家自己需要反思可能存在的偏见

10. 数据伦理和治理

10.1. 数据处理行为的数据监督属于数据治理和法律顾问范畴

10.1.1. 他们必须了解法律的最新变化，同时确保雇员了解自己的义务以降低伦理不当带来的风险

10.2. 数据治理必须制定相关标准和制度以提供数据处理和监督的方法

10.2.1. 雇员一定期待公平处理，以避免可能的违规行为遭到举报，影响他们的私人生活

10.3. 数据治理有一个特殊的监督要求，即用于审查商务智能、分析和数据科学研究提出的计划和决策