GoogleAI原则的经验教训

智能甄选 2019-05-24 13:21:53

您的组织是否在其许多产品中使用AI /机器学习,或者计划将AI模型广泛用于即将推出的产品?您是否为产品经理,数据科学家和机器学习研究人员等利益相关者制定了一套AI指导原则,以确保安全,无偏见的AI用于开发基于AI的解决方案?您是否计划为其他AI利益相关者(包括业务利益相关者,客户和合作伙伴)制定AI指导原则?

如果上述问题的答案不是“是”,那么您应该开始考虑制定人工智能指导原则,以便早日帮助从执行团队到产品管理,数据科学家计划,构建,测试,部署和管理基于AI的产品。基于AI的系统快速增长的功能已经开始邀请业务利益相关者(包括客户和合作伙伴)提出问题,以提供有关集成到各种业务流程和工作流程中的基于AI的产品的影响,治理,道德和责任的详细信息。鉴于与IP相关或隐私问题,公司不再能够隐瞒上述某些细节。

在这篇文章中,您将了解一些可以为您的业务设置的AI指导原则。它们基于Google开发基于AI的产品的原则。这些原则是:

总体上有利于业务

避免对一组用户实体的不公平偏见

确保客户安全(免受商业风险)

值得信赖(客户可以要求解释)

客户数据隐私

持续治理

使用最好的AI工具和框架构建

下图表示道德AI的AI指导原则:

图1:道德AI的指导原则

总体上有利于业务

应该建立人工智能/机器学习模型来解决复杂的业务问题,同时确保优势超过模型带来的任何风险。以下是各个模型所带来的各种风险的几个例子:

假新闻模型:该模型预测新闻是否是假新闻。该模型具有95%的高精度和85%的召回率。85%的回忆显示,有一组新闻(尽管数量较少)未能被预测为假的,因此被模型过滤。然而,在所有被预测为假的新闻中,95%的准确率意味着该模型很好地将新闻预测为假新闻。在我看来,这种模式的好处超过了假阴性造成的伤害。

癌症预测模型:假设建立了一个用于预测癌症的模型。模型的精确度达到90%,这意味着在模型的所有预测中,90%是正确的。到现在为止还挺好。但是,召回价值是90%。这代表了这样一个事实,即那些实际上患有癌症的人,该模型能够正确预测90%的人。其他人被预测为假阴性。那可以接受吗?我不这么认为。因此,这种模式不会被接受,因为它可能最终会伤害到它的帮助。

避免对一组用户实体的不公平偏见(有偏见与否?)

AI / ML模型通常使用数据集进行训练,其基本假设是所选数据集是无偏的,或者忽略了它的实际偏差。现实是不同的。在构建模型时,需要检查功能集和与这些功能相关的数据的偏差。在以下两个方面都需要测试偏差:

模型训练阶段,和

一旦建立了模型并准备进行测试,就可以将其投入生产。

让我们考虑几个例子来理解训练数据集中的偏差:

图像识别模型中的偏差:假设有一个模型用于识别给定图像中的人类。如果用具有白色肤色的人的图像训练模型,则可以将歧视偏差引入到模型中。因此,模型 - 当用描绘不同肤色的人的图像进行测试时 - 将无法以正确的方式对人进行分类。

招聘模式中的偏见:为招聘而建立的模型可能会受到偏见,例如雇用男性或女性担任特定角色,或雇用具有白色名称的人,或雇用具有特定职位的特定技能的人。

犯罪预测模型中的偏见:人们可能会看到犯罪预测模型中存在偏见,例如,如果一个黑皮肤的人被认为比白皮肤的人有更高的犯罪可能性。显示的评估指标代表了近45%的误报。

人们必须明白,存在两种不同的偏见,即偏见是基于经验还是歧视。医生可以利用他们的经验将患者归类为患有特定疾病或不患有特定疾病。这可以称为良好的偏见。或者,不能识别非白色肤色人的模型在性质上被认为具有辨别力。这可以称为坏偏见。目标是在模型训练阶段或模型建立之后检测不良偏差并消除它。

确保客户安全(免受商业风险)

应检查模型的性能,以最大限度地减少误报/否定。这有助于确保摆脱与业务功能相关的风险。让我们以机器学习模型(在应收账款域中)为例,预测买方的订单是否可以根据其信用评分进行交付。如果模型错误地预测订单应作为应收款交付,则供应商可能面临未按时收到发票付款的风险,这将影响其收入。因此,这种模式不应该转移到生产中,主要是因为它们可能以负面的方式影响业务,从而导致收入损失。

可信/可解释(客户可以要求解释)

模型应该值得信赖或可解释。使用模型预测的客户可以询问与预测有关的特征相关的细节。记住这一点,应该能够解释或推导预测是如何进行的,或者避免使用黑盒模型,因为难以解释预测而是使用更简单的线性模型。

客户数据隐私

作为治理实践的一部分,应尊重客户数据隐私。如果客户被告知他们的数据隐私将被维护,并且他们的数据不会用于任何与业务相关的目的而不通知他们并获得他们的许可,则应该尊重并作为ML模型审查实践的一部分进行管理。业务部门应设立QA团队或审核团队,以确保始终遵守客户数据隐私协议。

持续治理

机器学习模型生命周期包括与以下某些方面相关的方面:

数据

特征工程

模型构建(培训/测试)

ML管道/基础设施

作为人工智能指导原则的一部分,应将持续治理控制用于审计与上述所有相关的方面。一些治理控制如下:

数据:模型是否使用对手数据集进行训练,需要以手动或自动方式连续检查。其次,否则是否使用不允许用于构建模型的数据。

特征工程:是否已检查特征的重要性。派生功能是否最终使用数据隐私协议不允许的数据。是否已为功能生成代码编写单元测试。

模型构建:模型性能是否最佳。是否对模型进行了偏差测试。是否在不同的数据切片上测试模型。

ML管道:ML管道是否安全。

最好的AI工具和框架

必须确保使用最好的工具和框架构建AI模型。此外,参与建立AI模型的人员应定期进行适当的培训,并提供最佳实践和最新的教育材料。工具和框架必须确保以下某些方面:

使用最先进的AI技术,如AutoML,偏置工具。

采用与安全相关的最佳实践。

摘要

在这篇文章中,您了解了AI指导原则,您应该考虑为AI / ML团队和业务利益相关者设置,包括执行管理,客户和合作伙伴,以开发和管理基于AI的解决方案。一些最重要的AI指导原则包括安全性,偏见和可信性/可解释性。

0 阅读:2

智能甄选

简介:技术交流、资源共享,是程序员的网上乐园。