读DAMA数据管理知识体系指南27文件和内容管理概念（上）

1. 文件和内容管理

1.1. 文件和内容管理是指针对存储在关系型数据库之外的数据和信息的采集、存储、访问和使用过程的管理

1.2. 重点在于保持文件和其他非结构化或半结构化信息的完整性，并使这些信息能够被访问

2. 业务驱动因素

2.1. 文件和内容管理的主要业务驱动因素包括法规遵从性要求、诉讼响应能力和电子取证请求能力以及业务连续性要求

2.2. 良好的档案管理还可以帮助组织提高效率

2.3. 法律法规要求组织保留某些活动的档案

2.3.1. 大多数组织还有关于档案保存的制度、标准和最佳实践

2.3.2. 档案包括纸质文件和电子存储信息(ESI)

2.3.3. 良好的档案管理是维持业务连续性的必要条件，还可以使组织具备针对诉讼的响应能力

2.4. 电子取证是查找可能作为法律诉讼证据的电子档案的过程

2.5. 组织应对电子取证请求的能力取决于其主动管理电子邮件、聊天、网站、电子文件等档案以及原始应用程序数据和元数据的水平

2.5.1. 大数据已经成为更有效的电子取证、档案保留以及强大的信息治理的驱动力

2.6. 提高效率是改进文件管理的驱动力

2.6.1. 文件管理方面的技术进步，有助于组织简化流程、管理工作流、消除重复性的手动任务并实现协作

3. 目标

3.1. 确保能够高速有效地采集和使用非结构化的数据和信息

3.2. 确保结构化和非结构化数据之间的整合能力

3.3. 遵守法律义务并达到客户预期

4. 指导原则

4.1. 组织中的每个人都应该在保护组织的未来方面发挥作用

4.1.1. 每个人都必须按照既定的制度和程序来创建、使用、检索和处置档案

4.2. 档案和内容处理方面的专家应充分参与制度和规划的制定

4.2.1. 不同的行业和法律管辖区之间，监管实践可能会有很大的差异

5. 档案保存指导原则(GARP)

5.1. 问责原则(Accountability)

5.1.1. 组织应指派适当的高级管理人员，采用制度和流程来指导员工，并确保计划的可审计性

5.2. 完整原则(Integrity)

5.2.1. 建立信息治理规划，使组织创建或管理的档案和信息具有合理性以及适当的真实性和可靠性保证

5.3. 保护原则(Protection)

5.3.1. 建立信息治理规划，确保对个人信息或其他需要保护的信息提供合理的保护

5.4. 遵从原则(Compliance)

5.4.1. 建立信息治理规划，遵从适用的法律法规和其他有约束力的机构及组织的制度要求

5.5. 可用原则(Availability)

5.5.1. 组织应确保以及时、高效和准确检索其信息的原则来维护其信息

5.6. 保留原则(Retention)

5.6.1. 组织的信息应保留适当的时间，并考虑所有运营、法律、监管和财政以及其他所有相关约束的要求

5.7. 处置原则(Disposition)

5.7.1. 组织应根据其制度、适用的法律法规以及其他有约束力的机构要求，提供安全和适当的信息处置

5.8. 透明原则(Transparency)

5.8.1. 组织应以工作人员和利益相关方可以理解的方式记录其制度、流程和活动，包括其信息治理规划

6. 内容

6.1. 对于内容来说，文件就像水桶对于水一样，两者都是容器

6.2. 内容是指文件、档案或网站内的数据和信息

6.2.1. 内容通常基于文件所代表的概念以及文件的类型或状态来管理

6.2.2. 内容也有生命周期，在其完整的生命周期中，有些内容成为组织的档案，但正式档案应与其他内容区别对待

6.3. 内容管理

6.3.1. 内容管理(Content Management)包括用于组织、分类和构造信息资源的流程、方法和技术，以便以多种方式存储、发布和重复使用这些资源

6.3.2. 内容的生命周期可以是动态的，通过受控的创建和修改流程进行日常更改；它们也可以是静态的，只发生很少或偶尔的更改

6.3.3. 内容可以被正式的管理（严格存储、管理、审计、保留或处置）或通过临时更新的方式进行非正式的管理

6.3.4. 内容管理在网站和门户中尤为重要，但基于关键字的索引和基于分类的组织方法可以跨技术平台应用

6.3.5. 当在整个企业范围内进行内容管理时，称之为企业内容管理(ECM)

6.4. 内容元数据

6.4.1. 元数据对于管理非结构化数据至关重要，无论是传统上认为的内容和文件，还是现在理解的“大数据”

6.4.2. 格式

6.4.2.1. 通常数据格式决定了访问数据的方法（如电子非结构化数据的电子索引）

6.4.3. 可搜索性

6.4.3.1. 是否已经具备用于搜索相关非结构化数据的工具

6.4.4. 自我描述性

6.4.4.1. 元数据是否有自我描述能力（如在文件系统中）

6.4.4.2. 可以简单地采用现有工具，开发的需求是最小的

6.4.5. 既有模式

6.4.5.1. 是否可以采用或者适配现有的方法和模式（如在图书馆目录中）

6.4.6. 内容主题

6.4.6.1. 人们可能在寻找的东西

6.4.7. 需求

6.4.7.1. 需要进行彻底和详细的检索能力

6.4.8. 非结构化数据的元数据维护变成了对各种本地模式与企业正式元数据集之间交叉引用的维护

6.5. 内容建模

6.5.1. 内容建模(Content Modeling)是将逻辑内容概念转换为具有关系的内容类型、属性和数据类型的过程

6.5.2. 内容建模有两个层次

6.5.2.1. 信息产品级别，它会产出一个像网站一样的实际可交付成果

6.5.2.2. 组件级别，它进一步详细说明了构成信息产品模型的元素

6.5.3. 内容模型通过指导内容创建并促进内容的再利用来支持内容管理制度

6.5.3.1. 支持自适应内容，也就是自由格式且与设备无关

6.5.3.2. 这些模型成为在XML模式定义(XSD)、表单或样式表等结构中实现内容的规范

6.6. 内容分发方法

6.6.1. 内容需要模块化、结构化、可重复使用，且与设备和平台无关

6.6.2. 交付的方式包括网页、打印文稿和手机应用以及具有交互式视频和音频的电子书

6.6.3. 推式(Push)

6.6.3.1. 在推式系统中，用户按照预先确定的时间表选择传送给他们的内容类型。发布方创建内容并在多个地方将其发布

6.6.3.2. 简易信息聚合(RSS)是推式内容分发机制的一个示例

6.6.3.2.1. 根据请求将内容（一个信息流）分发到新闻和其他网页内容上

6.6.4. 拉式(Pull)

6.6.4.1. 在拉式系统中，用户通过互联网获取内容

6.6.4.2. 购物者访问在线零售商店就是拉式系统的一个例子

6.6.5. 交互式(Interactive)

6.6.5.1. 交互式内容分发方法，如第三方电子销售点(EPOS)的应用或面向客户的网站（如用于注册），需要在企业应用之间交换大量的实时数据

6.6.5.2. 在应用程序之间共享数据的选项，包括企业应用程序集成(EAI)、更改数据采集、数据集成和EII

7. 受控词表

7.1. 受控词表(Controlled Vocabularies)是被明确允许用于通过浏览和搜索对内容进行索引、分类、标引、排序和检索术语的定义列表

7.1.1. 系统地组织文件、档案和内容离不开受控词表

7.1.2. 词汇表的复杂程度包括从简单的列表或选项列表，到同义词环圈或规范表、分类法以及最复杂的主题词表和本体

7.1.3. 受控词表的一个例子是用于出版物分类的都柏林核心元素集(Dublin Core Element, DC)

7.2. 需要确定谁可以在词汇表中添加词汇的管理制度

7.2.1. 在理论上，管理员需接受专门的培训后再来负责开发词汇表

7.2.2. 词汇表的用户只能在其主题范围内引用词表内容

7.3. 受控词汇表构成了参考数据的一个类型

7.3.1. 需要管理它们的值和定义，以确保完整性和时效性

7.3.2. 因为它们有助于解释和支持其他数据的使用，所以它们也可以被视为元数据

7.3.3. 文件和内容管理是受控词表的主要使用案例

7.4. 词汇表管理

7.4.1. 由于词汇表随着时间的推移而发展，因此需要对它们进行管理

7.4.2. 词汇表管理是针对任何给定的词汇进行定义、寻源、导入和维护的过程

7.4.3. 将通过术语和术语关系管理功能帮助建立内部标准，包括相关的首选词汇表

7.5. 词汇表视图和微控制词汇表

7.5.1. 词汇表视图(Vocabulary View)是受控词表的子集，涵盖了受控词表领域内有限范围的主题

7.5.2. 词汇表视图通过只展示适合用户的内容来增加信息的可用性

7.5.3. 微控制词汇表(Micro-Controlled Vocabulary)是包含一般词汇表中不包含的高度专业化术语的词汇表

7.5.3.1. 微控制词汇的一个示例是具有医学学科子集的医学词典

7.5.4. 目标是采用标准的词汇表，通过微控制词汇表作为必要的补充，其缺少的内容需要专业的信息使用者进行添加/扩展

7.6. 术语和选择列表

7.6.1. 术语列表仅仅就是一个列表(List)

7.6.2. 它们不会描述术语之间的关系

7.6.3. 选择列表(Pick Lists)通常隐藏在应用程序中

7.7. 术语管理

7.7.1. 等价术语关系(Equivalent Term Relationship)

7.7.2. 层次化关系(Hierarchical Relationship)

7.7.3. 关联关系(Related Term Relationship)

7.8. 同义词环和规范表

7.8.1. 同义词环(Synonym Ring)是指一组含义大致相同的术语

7.8.2. 同义词环允许搜索其中一个术语的用户去访问与该词环其他术语相关的内容

7.8.3. 开发同义词环手册的目的是用于检索而非索引

7.8.4. 规范表(Authority List)是描述性术语的受控词汇表，旨在促进特定领域或范围内的信息检索

7.9. 分类法

7.9.1. 分类法(Taxonomies)是指任何分类或受控词表的总称

7.9.2. 最著名的例子是瑞典生物学家林奈(Linnaeus)开发的所有生物的分类系统

7.9.3. 扁平分类法(Flat Taxonomy)

7.9.3.1. 在受控类别集之间没有关系，所有类别都是平等的

7.9.4. 层次分类法(Hierarchical Taxonomy)

7.9.4.1. 它是一种树结构，其中节点通过规则相互关联

7.9.4.2. 层次结构至少具有两个级别并且是双向的

7.9.5. 多重层级结构(Polyhierarchy)

7.9.5.1. 它是具有多个节点关系规则的树状结构

7.9.5.2. 子节点可能有多个父节点，父节点也可以共用一个祖父节点

7.9.5.3. 遍历路径可能会很复杂，所以必须注意避免潜在的无效遍历：从与父节点相关的节点开始向上遍历而非祖父节点

7.9.5.4. 复杂的多重层级结构可能更适合面分类法

7.9.6. 面分类法(Facet Taxonomy)

7.9.6.1. 它指的是每个节点与中心节点相关联，其形状看起来像星形图

7.9.7. 网状分类法(Network Taxonomy)

7.9.7.1. 既可用于层级结构，也可用于刻面结构

7.9.7.2. 网状分类中的任何两个节点都基于它们的关联来建立链接

7.9.8. 如果不对分类法进行维护，则会产生理解不充分或者错误的结果，并造成被监管的实体和工作人员不合规的风险

7.10. 分类方案和打标签

7.10.1. 分类方案(Classification Schemes)是代表受控词表的代码

7.10.2. 大众分类法是通过社交标签对在线内容术语和名称分类的方案

7.10.3. 大众分类法通常被认为不具有权威性，通常也不应用于文件索引

7.11. 主题词表

7.11.1. 主题词表(Thesauri)又称叙词表，是一种用于内容检索的受控词表

7.12. 本体

7.12.1. 本体(Ontology)是一种分类法，它代表一套概念和它们在某个领域内概念之间的关联

7.12.2. 本体论可以是一系列的分类法和常见同义词表，用于知识表示和信息交换

7.12.3. 本体论通常由包含关系的多个类和定义组成层次结构

7.12.4. 分类法为给定的概念区域提供数据内容分类

7.12.5. 在分类法或数据模型中，定义是已知的，别无其他，称为封闭世界假设

7.12.6. 无法区分实例关系和子类关系

7.12.7. 将事件建模为关系

7.12.8. 术语缺乏清晰度和独特性

7.12.9. 将角色建模为类

7.12.10. 无法重复使用

7.12.11. 混淆建模语言的语义和概念

7.12.12. 使用基于网络的、跨平台的工具（如OOPS）进行本体验证有助于陷阱的诊断和修复