近日,首都医科大学宣武医院的颈动脉支架手术数据集(登记时包含2550条数据)在北京国际大数据交易所(后简称:北数所)进行了资产确权登记,同时完成交易。
这是北京市史上第一笔公立医院健康数据交易,交易由北数所牵头,宣武医院供应数据资产,盈理律师事务所负责数据交易涉及的法律服务。
据宣武医院表示:该交易数据经过严格的匿名化、数据清洗、整合和标准化处理,严格保护患者隐私,确保了数据的准确性和可用性。未来,该数据集将应用于国产颈动脉支架产品的研发,助力医疗机构更加精准地理解中国人群的脑血管疾病。
首都医科大学宣武医院数据资产登记凭证
早年数字医疗的风吹起时,医疗数据隐藏的巨大价值便已为众人津津乐道,但囿于数据规范、数据互联互通、数据安全、数据开放、数据共享等问题无力解决。理论上价值千亿规模的市场,实际之中鲜有旁观者垂目。
本次交易的完成,似乎让这一切有了一个答案——过去“不敢共享、不愿共享”的门槛已经跨过,一个健康数据自由流通的时代已经来临。
公开记录中的首笔健康数据场内交易在宣武医院数据交易完成前,我国的健康数据交易市场自2023年下半年开始已经颇有起色。
2023年8月,山东健康医疗大数据管理中心与国家健康医疗大数据中心(北方)共建单位在数据交易流通方面先行先试,凭借《人群流行病学分析报告》获得全国健康医疗数据产品首张场内交易凭证,并在同月月末成功完成首笔数据产品场内交易。
而后半年时间,福建大数据交易所亦实现“零的突破”,依靠《厦门市内分泌代谢疾病分析报告》拿下福建省内首单健康医疗数据产品场内交易。
不过,上述两笔数据交易的本质均是基于健康数据的报告交易,买方买到的是基于健康数据生成的结果,而非健康数据使用权本身。直至2024年5月,广东省人民医院在完成健康医疗数据的汇聚、治理、管理的基础上,经数据匿名化处理及安全加密后、形成“广东省医学科学院糖尿病视网膜病变诊断数据产品”“广东省医学科学院心脏疾病诊断预测数据产品”2项健康医疗数据产品,终才正式支持以数据集为标的的健康数据交易。
2024年10月,上海第一人民医院再度实现突破,一天之内申请到了18张数据产品挂牌证书,其中包含AI辅助诊断中常用到的肺结节、糖网病变、CT-FFR、乳腺超声等多模态数据集,亦有精子发生障碍、急性白血病基因突变与移植预后等专病数据集。部分数据集的数据维度达到了512项,存储大小高达100 TB。
各数据交易所上架数据集统计(非完全统计)
与上述事件相比,宣武医院交易一事有其特有的积极意义。一方面,查阅公开资料可见,宣武医院交易前只有挂牌,没有公开报道的场内交易(可能存在围绕科研机构展开的场外交易),此次交易可谓开启了健康数据场内交易的先河。
另一方面,本次交易较于过往国内公开的已完成的健康数据交易有两大不同之处。
其一,过往完成的健康数据交易形式通常为售卖基于医疗数据生成的定向报告,买方并不直接接触数据。而本次数据交易标的为医疗数据本身,这意味着买方有权通过协议约定对购置的脱敏医疗数据进行自主训练、分析。
其二,过往数据资产登记凭证的更新频率较慢,许多资产更新时间长达一年,而宣武医院将对数据集进行每周一次的更新。当买方在实际应用中发现数据量不足时,高频率的更新将为其提供拓展数据集的可能,且能推进交易双方后续数据交易的进行。
如宣武医院所言,它迈出了数据驱动医疗创新、推动高质量发展的崭新一步,开启了通过数据流通服务健康中国的全新模式,为全国医疗健康数据的合规应用树立了新的标杆。
横亘在健康数据交易面前的三大难题到目前为止,各大交易所的健康数据产品大致可分为4类:一是语料数据,二是可直接使用的平台&AI模型,三是基于健康数据的分析报告,四是特定设备&专病健康数据集。四大产品类型理论上已能满足市面上绝大多数健康数据需求,理想条件下的健康数据交易模型,已初步成型。
只是,在将理想模型变为现实的过程中,健康数据交易市场还有不少系统性的问题有待解决。
尽管宣武医院交易一事为行业带来了颠覆性的意义,但健康数据交易市场还有不少系统性的问题有待解决。
北京瀛和(广州)律师事务所高级顾问黄迪律师正在参与广东省关于健康医疗数据资产合规登记的地方标准的起草制定,她认为:互联网、金融等行业数字化程度高,形成高质量数据资源的基础条件好,二是这些行业本身需要数据支撑的商业模式和应用场景多,譬如电商平台通过分析用户的浏览历史、购买行为等数据,将这些数据进行交易或共享,以实现广告投放的精准匹配,提高广告转化率;金融行业则长期利用数据来建立风险评估模型、信用评级模型等,精准评估各类信贷的风险。
相较之下,健康医疗数据在进行市场化应用时,由于涉及大量个人隐私和敏感信息,需要通过技术手段和合规体系确保患者个人信息权益的前提下,在高效释放数据要素价值与保护患者隐私之间找到平衡点。
其一,健康数据权属复杂,往往具备个人数据与公共数据的双重属性,所涉数据权利主体多样化,即患者、医疗机构、医疗行业主管部门、医疗仪器设备厂商都可能是健康医疗数据的持有者或控制者,如何通过合规体系和确权体系解决这些数据权属是市场化应用的前提。
其二,由于健康数据缺乏统一定价标准,定价困难,现阶段市场主要是通过交易双方协商定价。数据提供方会根据数据的质量、稀缺性、用途等因素综合评估一个价格区间,数据购买方则会根据自身的需求和预算进行谈判。
最后,各医疗机构的健康医疗数据格式和标准不统一,形成高质量数据资源的整合技术难度相对较大。此外,许多医院无法提供高频的数据集更新服务,致使数据需求方的购置成本居高不下,且很难对数据集的容量进行扩充。
目前解决上述问题的方式主要有两种路径,一是结合海外经验,逐一解决上述问题。譬如在权属方面,美国依据《著作权法》对具有版权或相关权利的公共数据库,采取知识共享 COO 许可,开放数据库许可等方式,授权用户用以商业或非商业目的开发利用。英国依照《政府许可框架》《自由保护法案》等,对受版权或数据库权利保护的数据采用开放政府许可,允许用于商业或非商业的免费复制、发布、分发、传输及改编数据:针对超过《公共部门信息再利用条例》规定范围的数据再利用设置收费许可。
另一方面,我国也在不断完善相关文件。2023 年 9 月,中国资产评估协会便曾印发《数据资产评估指导意见》结合收益法、成本法和市场法等评估方法,以及影响数据质量的因素如准确性、一致性、完整性等,评估数据资产的价值并为交易定价提供一定的依据。
理想条件下的健康数据交易模型
孤掌难鸣,健康数据价值涌现还需更多机构入局尽管数据交易仍然存在重重阻碍,但从更长远的角度来看,医疗机构、企业、交易所、监管机构均有动力将健康教育深入地推动下去。
对于医院而言,政策指导下的医疗IT建设虽能在长期之中提升医院的综合竞争力,但短期之内仅以成本的形式计入损益表中。因此,尽管各类政策在后不断助推,仍有不少医院不愿在医疗信息化建设之中投入太多精力。
健康数据交易的实现或能改变这一局面。通过规模化销售脱敏数据,医院可以将数据治理从成本转化为收入,从而激发其主动深化信息化建设的动力。
对于AI和信息化企业来说,健康数据交易同样带来了积极影响。以往,这些企业在基于临床数据进行应用研发时,往往受限于有限数量医院的合作,可能导致算法运行时出现地域性,难以广泛应用。
健康数据交易成规模后,这些企业有望摆脱对于医院的依赖,在研发之初便综合多家医院的数据,制造鲁棒性更强的人工智能。此外,新的模式还能使他们在销售人工智能产品时更加独立,避免了潜在的知识产权纠纷。
问题在于:现阶段的健康数据交易市场交易品类虽较过去更为丰富,但并无替代品,健康数据的价格也会相对偏高,难以充分满足买方的对于数据数量、数据多样性的需求,亦可能致使买方训练出的模型价值不抵训练成本。因此,短期之内健康数据交易市场的交易量仍会维持低位。
因此,当更大规模、更多层次的医疗机构入局,大数据交易所上架更丰富、更高质量健康数据产品后,我们或许能在充分竞争之中看到健康数据交易蕴藏的真正价值——它将成为推动中国医疗体系走向全面数智化的核心之力。