这是 FFDW 项目合作伙伴人权数据分析小组 (HRDAG) 的客座帖子,由 HRDAG 研究总监帕特里克·鲍尔 (Patrick Ball) 撰写。
从记录侵犯人权行为到促进问责和正义,数据是我们集体记忆中真相的支柱。
HRDAG 工作的核心是它收集、整理并用于估计和分析的数据集。这些数据包括凶杀、失踪、绑架、招募儿童兵和强迫流离失所的证据。这些是可能发生在任何人身上的一些最具创伤性的事件,这些事件的证据至关重要——这样社会才能记住过去的痛苦,以免将来重蹈覆辙。通过记住,我们有助于验证幸存者的经历,促进社会康复,并提供证据来追究肇事者的责任。因此,保存和保护这些信息至关重要。
争取人权的记录可能是世界上最脆弱的数据之一,很容易在不安全的平台上被篡改或完全消失。我们于 2021 年开始与 Filecoin 去中心化网络基金会 (FFDW) 合作,探索去中心化技术如何支持保护这些关键数据并促进对侵犯人权行为的问责。
记住和保护数据的一种方法是在传统网络之外的服务上复制数据,无论是通过集中化还是单点故障,都能保证数据丢失的恢复能力。
探索去中心化存储解决方案
在FFDW的支持下,HRDAG一直在尝试新的数据存储机制,包括IPFS和Filecoin网络。
IPFS 代表星际文件系统,是一种去中心化内容存储系统,可通过内容标识符 (CID) 提供内容,而不是传统的基于位置的 URL(如 https 链接)。这些 CID 是所存储内容的唯一加密哈希值。这意味着当使用 CID 请求数据时,它会返回已上传数据的未伪造、未修改的精确副本,只要世界上某个地方的某个人正在托管该数据的副本。
Filecoin 将 IPFS 与经济激励相结合,以提供数据存储的确定性。通过加密证明,Filecoin 可确保存储提供商继续存储和提供数据。而且由于存储和共享数据的人员存在冗余,因此如果一个节点发生故障,数据仍然可以访问。通过设计,去中心化存储可确保冗余和弹性,这与集中式服务器上数据的脆弱性形成鲜明对比。
HRDAG 的方法和见解
去中心化存储是一种延长数据寿命的新方法——对于广泛的互联网和 HRDAG 而言。
我们 HRDAG 团队已上传到 IPFS 和 Filecoin 的一些信息是有关哥伦比亚 50 年冲突的庞大数据集的一部分。哥伦比亚真相委员会和法院使用这些数据对一些内战中的游击队和军事领导人进行特赦。由于该数据集是开放资源,因此邀请数据科学家、研究人员、民间社会团体和其他人探索这些数据,看看还能学到什么。
当我们探索如何最好地利用去中心化技术来存储和共享重要的人权工作时,HRDAG 管理的数据(例如真相委员会数据)的性质提出了新的问题
我们应该如何在网络上提供数据?
使用通常的方法,我们在页面上放置一个指向数据文件的链接以允许访问,仅此而已。在去中心化网络上,如何最好地共享存储的数据仍在讨论中。如何在网页上链接到 IPFS 上存储的数据?您如何向人们指出 IPFS 上的数据并帮助他们在找到数据时了解他们发现了什么?与 https 链接不同,CID 链接的访问范围不那么广泛,并且需要 IPFS 节点或网关。
HRDAG 的去中心化存储实验始于 18 个月前,当时我们将一些较旧的数据集放到 IPFS 上,其中包括来自哥伦比亚真相委员会的数据。我们通过 IPFS 以及常用的 https 网络链接在去中心化网络(DWeb)上提供这些文件。
从本质上讲,IPFS 顾名思义:一个文件系统。将数据放入网络的最简单、最快的方法之一就是从笔记本电脑上传文件和目录。因此,我们创建了一个脚本,从 HRDAG 网站下载数据集,将它们放入一个目录中,然后将该目录放入具有 CID 链接的 IPFS 上。这种方法没有什么特别之处,而且可能不是组织长期档案的最佳方式。但当时间至关重要时,就像在人权危机期间经常发生的那样,这可能是确保关键数据被记住而不是被遗忘的有效方法。
如何托管数据?
IPFS 的工作原理是让人们为你托管数据,这就引入了一个问题——谁应该托管我们的数据?
内容寻址的优点之一是它并不重要。与中心化存储不同,提供商无法在不更改 CID 的情况下编辑或修改原始文件,并且只要数据由某人托管,它就可用,这就是 Filecoin 网络的用武之地。
HRDAG 将哥伦比亚数据上传到两个 Filecoin 存储服务,以确保更大的分布和冗余。上传过程很简单:我们的第一次上传是通过早期的 Filecoin Web 服务(称为 Estuary)手动完成的。当 Estuary 退役后,我们轻松地切换到另一个服务和unix 命令行界面 w3cli来工作。其他组织还提供了基于 Filecoin 构建的其他选项,但最终结果是相同的:数据存储在去中心化网络上,可以通过相同的 CID 访问。我们发现这个过程基本上很顺利,尽管在某些情况下,较大的文件需要我们有很好的互联网连接,否则上传会失败。
这些基于 Filecoin 的服务通常与不同的存储提供商合作,这意味着数据将被复制到不同位置的更多样化的节点集。值得注意的是,这种多样性也会导致混乱——有时数据的打包方式略有不同,导致相同数据的 CID 不同。
数据可在此处获取:
https://bafybeibq7ub6qkie62cy2tkoawwsw35jpvtvdl3nrwlhwuz2a4ate65eyq.ipfs.w3s.link/。
这是通过 Web 网关进入 IPFS 世界的视图。该网关由web3.storage团队运行,该团队是我们用来上传数据的平台,但还有由Cloudflare和其他公司运行的其他公共 Web 网关。
虽然 IPFS 不是单点故障,但 Web 网关是单点故障 - 如果该链接断开,数据仍将位于 IPFS 上,但您将无法使用该特定链接找到它。您需要提取 CID,然后将其提供给另一个网关,或者使用支持它的客户端程序或浏览器(例如 Brave 或 Agregore)直接连接到 IPFS。最终,我们的数据集备份在 Filecoin 上,Filecoin 使用加密货币来激励数据的长期存储,但没有什么可以阻止其他人提供其他存储作为自愿服务。
另一个问题是,如果没有 HRDAG 网站的指向,您将如何查找这些数据。在 IPFS 搜索和创建一个更加互联的 IPFS 世界方面有非常早期的工作——就像原始的 Web 是互联的一样。星际链接数据(IPLD) 是一个正在进行的项目,旨在为互连数据创建数据结构。我们没有将古老的蹩脚 CSV 文件转换为 IPLD 结构,但这将是一种选择 - 也许是一种更原生的 DWeb 方法。
究竟如何在 Filecoin 网络上最好地构建和存储关键数据的长期档案仍然是一个悬而未决的问题,我们互联网档案馆和Starling 实验室的同事正在探索这个问题,并且我们正在继续发现去中心化的好处如何存储可以更好地保护我们管理的人权数据。
我们学到了什么?好吧,大多数人还没有使用这些 IPFS 链接,但这没关系——无论如何,没有多少人下载我们的数据集。这种方法仍然以与集中式服务器不同的方式作为数据备份,在数据存储方式上提供冗余。具有讽刺意味的是,我们希望将来几乎不需要使用或重复使用侵犯人权的证据。然而,至关重要的是,这些证据必须易于获取,这样我们才不会忘记并继续从人类最严重的错误中吸取教训。