人工智能，打击税收诈骗的新型武器

Christophe Gaie

法国跨部委人力资源信息技术服务中心数字应用办公室主任

随着人工智能技术的快速发展，已经在各个行业中产生深刻影响。其中，财税是一个受到广泛关注的领域。人工智能能够帮助税务机关提高反欺诈能力，打击欺诈行为。法国的公共财政总局近年来使用人工智能工具取得了诸多成果。那么，人工智能是如何检测欺诈的？准确度如何？

偷税漏税在税收缺口中占很大的比例，为经合组织国家所欠税款的4%至15%不等。

法国正在积极使用人工智能工具，加大税务欺诈打击力度。

法国跨部委人力资源信息技术服务中心（CISIRH）开发了一个操作框架，供世界各地的科研人员开发各自的反欺诈算法，并进行比对。

打击税务欺诈，不能把工作全盘交给简单的检测算法。算法是用来配合人类税务审计员的团队检测工作的。

在当前多国政府赤字居高不下的背景下，侦查税务欺诈成为了当务之急。偷税漏税在税收缺口中占很大的比例，为经合组织国家所欠税款的4%至15%不等。在法国，仅增值税偷税漏税的金额就高达200-250亿欧元左右[1]。为此，法国审计法院发布了多份研究报告，强调加强打击欺诈行为的重要性[2]。在法国，公共财政总局（DGFiP）负责监察税务欺诈，该机构近年来积极使用多种人工智能工具，取得了喜人的效果。

法国跨部委人力资源信息技术服务中心数字应用办公室主任Christophe Gaie与巴黎中央理工-高等电力学院的学生成立了一个研究项目组，旨在建立一款全新的，含有先进理论、算法、计算机代码、模拟数据的操作框架，供打击税务欺诈的部门使用[3]。

这项研究的目的是什么？

我们先前的理论研究明确了研究领域，确定了各种概念的定义和值得研究的问题，并制定了未来方向[4]。当前的操作框架开发项目是理论研究的延续，该操作框架供世界各地的科研人员开发各自的反欺诈算法，并进行比对。

由于合理避税不是违法行为，因此我们重点关注检测税务违法行为的算法，特别是检测自然人的，因为法人实体有其他渠道制裁。

你们项目的数据库来自哪里？

公民的税务档案包含大量个人信息：家庭状况、收入、资产等，但无论是在实验室分析中还是实际案例研究中，常常难以获取全部数据。因此，我们根据预先选定的若干个维度，创建了一组虚构数据。维度包括：社会职业类别、收入、支出、财产金额。当然，在条件成熟后，我们会加载真实数据，代替虚构数据。

出于对个人数据隐私的保护，法国公共财政总局（DGFiP）不能将真实数据提供给学者用于开发税务欺诈检测工具。这意味着每个学者都得独立建立自己的数据库，十分耗时，而且要花费精力学习收入、资产等税务概念。由于每人的数据库不一样，开发出来的算法便缺乏可比性。一般而言，数字技术开发是需要统一的参考数据库的（如电信信号数据库、图像数据库等）。

人工智能是如何检测欺诈的？

人工智能算法采用“税务文件模型”，根据可配置的标准检查文件内容。从税务欺诈案例中总结出主要规律后，我们定义了三大类最有可能实施偷税漏税的群体：

消费、资产明显高于个人收入水平的群体，

消费、资产明显低于个人收入水平的群体，

财富拥有量明显超出其社会背景、职业背景水平的群体。

参考数据集[5]是利用INSEE公布的参考数据编制的，包含了多种社会职业群体、收入水平和财富水平，以及每个社会职业类别的支出水平。每个社会职业类别的人数比例参照了现实中的比例。其他参数我们使用了Singh-Maddala分布来模拟[6]。

“打击税务欺诈，不能把工作全盘交给简单的检测算法。算法是用来配合人类税务审计员的团队检测工作的。”

我们自己也成功地开发出了多种税务欺诈检测算法：有的基于多采样神经网络，有的则基于随机森林（由多个决策树组成的机器学习算法，可解决回归和分类问题）。

这些算法在真实案例中使用过吗？

暂未，但是我们可以将开发成果与政府部门共享，特别是法国公共财政总局的控制编程和数据分析办公室（SJCF-1D）。该办公室还接受了我们项目组的一名学生作为实习生。与政府密切合作的每一个机会，我们都会把握珍惜。

算法的准确度如何？

值得注意的是，算法的检测准确率（即检测出欺诈案的实际正确率）和灵敏度（即检测出的欺诈者占总群体的比率）之间，存在取舍关系。因此，算法的好坏以准确率和灵敏度之间的折衷的度量来表示，专业术语是AUPRC，即“精确度—回归曲线下的面积”。

对于灵敏度优化的随机森林，我们开发的算法实现了高达0.851的AUPRC。这是一个非常好的结果，说明使用人工智能检测潜在欺诈具有良好的前景。

AI能全自主检测税务欺诈吗？

不能。打击税务欺诈，不能把工作全盘交给简单的检测算法。算法是用来配合人类税务审计员的团队检测工作的。税务欺诈监管不仅是个技术问题，必须由税务审计员最终确认，在法官的监督下，依法审查定夺，从而在程序上尊重纳税人权利。

分配给税务审计员的案件，应与其业务水平、工作量、熟悉的专业领域和税法领域相符合。我们开发的算法能向审计团队的负责人建议案件分配方式，然后由他们做出最终的决定。负责人也可以根据主观标准酌情采纳算法的建议。

欺诈检测应用程序还必须集成到相关部门的行政数字系统中。因此，除了常规的研究之外，我们还要考虑开发出来的应用程序如何与其他应用互联互通，以及程序的可维护性高低。当然，也需要留出接口，以便未来集成更新、更强大的算法。

作者

James Bowers

编辑

Meister Xia

1. https://www.insee.fr/fr/statistiques/6478533

2. https://www.ccomptes.fr/system/files/2019–11/20191202-synthese-fraude-aux-prelevements-obligatoires.pdf

3. Prolhac,J.,Gaie,C.“Providing an open framework to facilitate tax frauddetection”, International Journal of Computer Applications in Technology, In Publish, 2023, https://doi.org/10.1504/IJCAT.2023.10055494

4. Gaie,C.(2023).Struggling Against Tax Fraud, a Holistic Approach Using Artificial Intelligence. In:Gaie,C.,Mehta,M.(eds) Recent Advancesin Dataand Algorithms fore Government. Artificial Intelligence-Enhanced Soft ware and Systems Engineering, vol5. Springer, Cham. https://doi.org/10.1007/978–3031–22408-9_4

5. https://gitlab.com/jean.prolhac/detection-de-fraude/

6. Singh,A.,Narina,T.andAakanksha,S.(2016) “Areview of supervised machinelearning algorithms”, Proceedings of the 3rd International Conferenceon Computing for Sustainable Global Development (INDIACom), pp.1310–1315. https: //ieeexplore. ieee. org/ abstract/ document/7724478

世良情感网

人工智能，打击税收诈骗的新型武器

瞰创新