时至今日,机器学习与深度学习已经成为各类日常应用程序中的重要组成部分。而正是通过制定正确的策略、将机器学习算法集成到运营与流程当中,众多企业才得以快速实现蓬勃发展。与之对应,任何忽略了人工智能重大进步的竞争对手,都将在市场上失去立足之地。
但掌握机器学习知识是个困难的过程。大家需要从扎实的线性代数与微积分知识入手,掌握Python等编程语言,同时精通Numpy、Scikit-learn、TensorFlow以及PyTorch等数据科学与机器学习库。
如果你需要创建具备集成与扩展能力的机器学习系统,还需要熟悉Amazon AWS、微软Azure以及Google Cloud等云平台。
很明显,不少朋友压根不打算把自己培养成机器学习工程师。但我们得承认,这些数据科学与机器学习知识确实能给业务或组织负责人带来不少助益。好消息是,目前已经有几门课程提供关于机器学习及深度学习的宏观概述,而且不要求各位深入研究数学和编码技能。
但结合自己的经验,要想真正建立起对数据科学和机器学习的认知,必须在算法方面具有一定实践经验。在这方面,微软Excel无疑是一款极具价值、但却经常被忽视的工具。
图注:Hong Zhou撰写的《通过Excel学习数据挖掘:逐步理解机器学习方法》
对大多数人来说,微软Excel只是一款电子表格应用程序,负责以表格形式存储数据并执行比较基础的数学运算。但实际上,Excel是一款能够解决复杂问题的强大计算工具,其中包含的不少功能甚至允许您直接在工作簿中创建机器学习模型。
虽然我本人多年来一直在使用Excel数学工具,但直到接触到《通过Excel学习数据挖掘:逐步理解机器学习方法》(Learn Data Mining Through Excel: A Step-by-Step Approach for Understanding Machine Learning Methods )中Hong Zhou提出的学习方法,我才意识到Excel在数据科学与机器学习领域的学习与应用意义。
文中介绍了如何通过Excel一步步掌握机器学习基础知识,同时也展示了如何使用Excel基础函数与高级工具实现多种算法。
虽然Excel绝对无法取代Python机器学习,但它仍是学习AI基础知识并解决各类基本问题、同时又无需编写代码的绝佳入门选项。
使用Excel进行线性回归机器学习
线性回归是一种简单的机器学习算法,在分析数据与预测结果方面有着重要用途。具体来讲,线性回归特别适合处理那些整齐排列的表格式数据。Excel提供多项功能,可帮助您通过电子表格中的数据创建回归模型。
作为一款直观工具,数据图表工具能够提供强大的数据可视化功能。例如,你可以通过散点图在笛卡尔平面上显示数据的值。但除了显示数据分布之外,Excel图表工具还可以创建机器学习模型,用以预测数据值的变化。这项功能名为趋势线,可根据您的数据创建回归模型。你可以在趋势线选定多种回归算法,包括线性、多项式、对数与指数。你还可以配置图表以显示机器学习模型中的参数,借此预测新的观察结果。
当然,你还可以将多个趋势线添加至同一图表当中,借此快速测试并比较不同机器学习模型在同一批数据上的性能。
图注:Excel中的趋势线功能可根据数据创建回归模型。除了体验图表工具之外,《通过Excel学习数据挖掘》还提供其他一些体验流程,帮助您开发出更高级的回归模型。其中涵盖LINEST与LINREG等公式,可根据您的训练数据为机器学习模型计算出必要参数。
作者还引领大家逐步使用其他Excel基础公式(例如SUM与SUMPRODUCT)创建线性回归模型。整本书都遵循类似的套路:介绍机器学习模型中使用的数学公式,了解其背后的基本原理,并通过将值与公式组合在多个单元格及单元格数组中逐步创建出模型。
这一切距离生产级数据科学工作还很遥远,但在学习机器学习方面却是效果拔群,足以帮助大家快速掌握各类常用的机器学习算法。
通过Excel掌握其他机器学习算法
除了回归模型,你还可以在Excel上应用其他机器学习算法。《通过Excel学习数据挖掘》中还提供丰富的监督与无监督机器学习算法,包括k均值聚类、k最近邻、朴素贝叶斯分类与决策树等等。
虽然整个过程可能显得有点混乱,但只要按章节进行,大家会很快摸索出其中的逻辑。以k均值聚类为例,我们将在这一章中通过多个工作表使用大量Excel公式与函数(INDEX, IF, AVERAGEIF, ADDRESS等),借此计算聚类中心并对其进行优化。这并不是最有效的聚类方法,但在通过一个个工作表对聚类进行不断完善的过程中,您将获得良好的观察与研究机会。更重要的是,这种体验与传统编程书籍大不相同。一般的编程书籍往往引导读者直接使用数据点与机器学习库函数,借此直接输出聚类及其属性。
图注:在Excel上进行k均值聚类时,可以在连续的工作表上进行聚类细化。
在决策树一章中,我们将首先计算熵,再为机器学习模型中的各个分支选择特征。这个过程非常缓慢而且需要大量人为操作,但却能给各位带来有效的机器学习算法理解视角与体验。
在本书的多数章节中,我们都会使用求解器工具尝试实现损失函数最小化。在这里,大家会深刻体会到Excel的局限性——即使是只包含十几项参数的简单模型,也可能令计算机陷入缓慢的抓取当中。而一旦数据样本多达几百行,速度更是令人抓狂。但在对机器学习模型参数进行调优的过程中,求解器能够表现出强大的功能。
图注:Excel的求解器工具能够调优模型参数并实现损失函数最小化。通过Excel进行深度学习与自然语言处理
《通过Excel学习数据挖掘》还提到,Excel甚至能够实现某些高级机器学习算法。其中一章专门研究如何精心设计深度学习模型。首先,我们将创建一套包含约10项参数的单层人工神经网络。接下来,我们扩展其概念,创建出包含隐藏层的深度学习模型。虽然整个计算过程缓慢且效率低下,但确实可以正常起效,通过单元格值、公式以及强大的求解器工具实现深度学习推理。
图注:使用微软Excel进行深度学习,可帮助你深入理解深度神经网络的运作方式。
在最后一章中,我们将使用Excel创建一款最基础的自然语言处理(NLP)应用程序,借此建立情感分析机器学习模型。大家需要使用公式创建“词袋模型”,借此对酒店评论进行预处理与令牌化,而后根据肯定与否定关键字的密度对内容进行分类。在此过程中,大家将学到很多关于当代AI如何处理语言内容,以及AI与人类在处理局面及口头语言方面有何不同的专业知识。
Excel——强大的机器学习工具
无论你身为企业中的决策者、来自人力资源部门还是负责管理供应链及制造工厂,要想与数据科学家及AI技术人员协同合作,掌握机器学习方面的基础知识都非常重要。同样的,如果你身为报道AI动态的记者,或者身在为企业内机器学习团队发声的公关部门,理解相关工作原理也是编撰报道文章的重要基础。在我看来,《通过Excel学习数据挖掘》是一本易于阅读且节奏顺畅的好书,足以帮助大家一鼓作气上完这关于AI知识的第一课。
除了学习基础知识之外,Excel还可以作为我们机器学习工具集的强大补充。虽然它不适合处理庞大的数据集与复杂的算法,但足以针对小批量数据完成可视化及分析。你从Excel快速挖掘中获得的结果,将为后续的探索方向与机器学习算法选择提供重要洞见,最终引导你走上解决问题的正确道路。