通过IPFS&Filecoin网络保护人权数据:HRDAG向分散网络的旅程

夕夕说经济 2024-06-28 10:33:35

这是FFDW项目合作伙伴人权数据分析小组(HRDAG)的客座帖子,由HRDAG研究总监Patrick Ball撰写。

从记录侵犯人权行为到促进问责和正义,数据是我们集体记忆中真理的支柱。

HRDAG工作的核心是它收集、整理和用于估计和分析的数据集。这些数据包括杀人、失踪、绑架、招募儿童兵和强迫流离失所的证据。这些是一些最具创伤性的事件,可能发生在任何人身上,这些事件的证据是至关重要的—这样社会就可以记住过去的痛苦,这样它就不会在未来重演了。通过记住,我们帮助验证幸存者的经历,促进社会治愈,并提供证据追究犯罪者的责任。因此,保存和保护这些信息至关重要。

争取人权的记录可能是世界上最脆弱的数据之一,在不安全的平台上很容易被更改或完全丢失。我们于2021年开始与Filecoin分散网络基金会(FFDW)合作,探索分散技术如何支持保护这些关键数据,并促进对侵犯人权行为的问责。

记住和保护数据的一种方法是在传统网络之外的服务上复制数据,从而保证数据丢失的恢复能力,无论是通过集中化还是单点故障。

探索分散式存储解决方案

在FFDW的支持下, HRDAG一直在试验新的数据存储机制,包括IPFS和Filecoin网络。

IPFS代表InterPlanetary文件系统,是一种分散的内容存储系统,它通过内容标识符(CID)而不是传统的基于位置的URL (如https链接)提供内容。这些CID是存储内容的唯一加密哈希。这意味着,当使用CID请求数据时,只要世界上某个地方有人托管该数据的副本,它就会返回上传数据的未经伪造、未经修改的精确副本。

Filecoin将IPFS与经济激励相结合,以提供数据存储的确定性。通过加密证明,Filecoin确保存储提供商继续存储和服务数据。而且,由于谁在存储和共享数据方面存在冗余,如果一个节点发生故障,数据仍然可以访问。从设计上看,分散存储可确保冗余和恢复能力,这与集中式服务器上数据的脆弱性形成了鲜明对比。

HRDAG的方法和见解

分散存储是一种新的方法,可以延长整个互联网和HRDAG的数据—寿命。

我们的HRDAG团队上传到IPFS和Filecoin的一些信息是关于哥伦比亚50年冲突的大规模数据集的一部分。哥伦比亚真相委员会和法院利用这些数据大赦内战中的一些游击队和军事领导人。由于此数据集是开源的,数据科学家、研究人员、民间社会团体和其他人被邀请探索数据,看看还可以学到什么。

在我们探讨如何最好地利用分散技术来存储和共享重要的人权工作时, HRDAG管理的数据的性质,如真相委员会数据,提出了新的问题

我们应该如何在网络上提供数据?

使用通常的方法,我们在页面上放置一个数据文件的链接,以允许访问,就这样。如何最好地在分散的Web上共享存储的数据仍在讨论中。如何在网页上链接到IPFS上存储的数据?您如何将人们指向IPFS上的数据,并帮助他们了解他们在找到数据时发现了什么?与https链接不同,CID链接访问不那么广泛,需要IPFS节点或网关。

HRDAG对分散存储的实验始于18个月前,当时我们将一些较旧的数据集放在IPFS上,包括哥伦比亚真相委员会的数据。我们通过IPFS以及通常的https Web链接在分散的Web (DWeb)上提供了这些文件。

IPFS的核心是其名称的含义:文件系统。将数据获取到Web上最简单、最快的方法之一是从笔记本电脑上传文件和目录。因此,我们创建了一个脚本,从HRDAG网站下载数据集,将它们放入一个目录,然后将该目录与CID链接放在IPFS上。这种方法并没有什么特别的,它可能不是组织长期存档的最佳方式。但是,当时间至关重要时,就像人权危机期间经常如此,它可以成为确保关键数据被记住而不是被遗忘的有效方法。

如何托管数据?

IPFS的工作原理是让人员为您托管数据,这就引出了一个问题—谁应该托管我们的数据?

内容寻址的好处之一是它并不重要。与集中式存储不同,提供商在不更改CID的情况下无法编辑或修改原始文件,只要数据由某人托管,它就可以使用,这就是Filecoin网络的作用所在。

HRDAG将哥伦比亚数据上传到两个Filecoin存储服务,以确保更大的分发和冗余。上传过程很简单:我们的第一次上传是通过早期的Filecoin Web服务Etuary手动完成的。当Etuary退役后,我们很容易切换到另一个服务和unix命令行界面w3cli工作。其他组织也提供了基于Filecoin构建的其他选项,但最终结果是相同的:数据存储在分散的网络上,可以通过相同的CID访问。我们发现这个过程基本上是顺利的,尽管在某些情况下,较大的文件要求我们有一个良好的互联网连接,否则上传将失败。

这些基于Filecoin的服务通常与不同的存储提供商合作,这意味着数据将复制到不同位置的更多样化的节点集。值得注意的是,这种多样性也会导致混淆—有时数据的包装略有不同,导致相同数据的CID不同。

数据可在以下位置获得:

https://bafybeibq7ub6qkie62cy2tkoawwsw35jpvtvdl3nrwlhwuz2a4ate65eyq.ipfs.w3s.link/.

这是通过Web网关了解IPFS世界的视图。网关由web3.storage团队运行,这是我们用来上传数据的平台,但也有其他公共Web网关由Cloudflare和其他公司运行。

虽然IPFS不是单点故障,但Web网关是单点故障—如果该链路发生故障,数据仍将在IPFS上,但您将无法使用该特定链路找到它。您需要提取CID,然后将其提供给另一个网关,或者使用支持CID的客户端程序或浏览器(如Brave或Aggreore )直接连接到IPFS。最终,我们的数据集备份在Filecoin上, Filecoin使用加密货币来激励数据的长期存储,但没有什么可以阻止其他人作为自愿服务提供额外的存储。

另一个问题是,如果HRDAG网站指向它,您将如何找到这些数据。在IPFS搜索和创建一个更相互连接的IPFS世界—方面有非常早期的工作,就像最初的网络是相互连接的一样。星际链接数据(IPLD)是一个正在进行的项目,旨在为互连数据创建数据结构。我们没有将旧的蹩脚的CSV文件转换为IPLD结构,但这将是一个选项—也许是一个更原生的DWeb方法。

如何在Filecoin网络上最好地构建和存储关键数据的长期存档仍然是我们Internet Archive和Starling Labs的同事们正在探索的一个悬而未决的问题。我们正在继续发现分散存储的好处如何更好地保护我们管理的人权数据。

我们学到了什么?好吧,大多数人还没有使用这些IPFS链接,但没关系—没有多少人下载我们的数据集无论如何。这种方法仍然以与集中式服务器不同的方式充当数据备份,从而在数据存储方式上提供冗余。具有讽刺意味的是,我们希望,今后几乎没有必要使用或重复使用侵犯人权的证据。然而,至关重要的是,这些证据必须易于获得,这样我们就不会忘记并继续从人类最严重的错误中吸取教训。

0 阅读:13

夕夕说经济

简介:IPFS