近年来,人工智能(AI)与机器学习可谓不绝于耳。根据IDC公司2017年9月发布的预测,2017年全球在认知与人工智能解决方案领域的支出总额约为120亿美元。到2021年,这一总和可能将以50.1%的复合年增长率提升,意味着届时市场将迎来高达576亿美元。
在2018年的预测当中,Forrester Research公司预计新的一年内,“AI将重塑分析与业务创新的面貌”,且“AI将在两成企业中承担起制定决策与提供实时指令的职能”。不过该公司同时提醒称,“2018年也将成为CIO们意识到要发挥AI这类新技术的潜能,必须投入巨大努力的一年。”
对于多数企业而言,其中最艰苦的工作在于首先掌握机器学习与人工智能框架。根据Gartner公司的观点,“59%的企业仍在努力收集信息以构建其人工智能战略。”
其中大部分信息收集工作可能都将围绕着开源解决方案展开。多种领先的人工智能工具都可立足开源许可下获取,而大量尖端研究与开发工作也正基于这些开源项目进行。
那么,企业IT管理者们应该研究哪些开源AI解决方案呢?今天的文章将着重介绍十种最具人气的开源AI与机器学习工具。
1. TensorFlow
由谷歌公司打造的TensorFlow已经成为当前使用范围最广的机器学习框架之一。该项目的GitHub(一个面向开源及私有软件项目的托管平台)页面拥有87700颗星评,fork(计算机程序设计中的分叉函数)数量超过42700次。2017年发布的GitHub Octoverse报告指出,TensorFlow这款开源AI工具拥有数量最高的fork,贡献者数量位列第五,评论数量排名第十。其能够很好地适应基于云的应用程序,且目前Amazon Web Services、微软Auzre以及Google Cloud Platform都为其提供支持及/或服务。根据项目网站,其企业客户包括爱彼迎、英伟达、优步、SAP、Dropbox、eBay、谷歌、英特尔、可口可乐以及Twitter等等。
2. Scikit-Learn
基于其它三个开源项目(NumPy、SciPy以及matplotlibe)的Scikit-learn是一款基于Python的机器学习工具,主要强调数据挖掘与数据分析。其提供多种算法以实现分类、回归、聚类、降维、模型选择以及预处理等等。其用户包括Spotify、Evernote、OKCupid以及Change.org等等。其最初属于谷歌Summer of Code项目,并在随后的发展当中得到了多个组织机构的资助——具体包括INRIA、Paris-Saclay数据科学中心、纽约大学、Télécom Paristech、哥伦比亚大学、Alfred P. Sloan基金会与悉尼大学等。该项目在GitHub上拥有超过25300颗星评与超过12900次fork。
3. Caffe
Caffe诞生于Yangqing Jia手中,在开发此项目时其尚在加州大学伯克利分校攻读博士学位。伯克利大学AI研究(简称BAIR)部门目前正负责该项目的开发工作。项目网站指出,其属于“以表达、速度与容模为基础的深度学习框架。”其主要功能包括表现性架构、可扩展代码、出色的性能表现以及庞大的学术与行业用户祢。在GitHub上,该项目拥有22600多颗星评与超过13800次fork。
4. 微软Cognitive Toolkit
微软Cognitive Toolkit(原名为CNTK)将自身描述为一款“免费、易于使用的开源商业级工具包,可用于训练深度学习算法以通过类似于人脑的方式实现学习。”这套AI解决方案由微软公司内部开发完成,并于2016年以开源许可形式进行发布。该工具的主要特征包括支持Python、C++以及BrainScript; 支持强化学习、生成对抗网络以及有监督与无监督学习; 高效的资源利用能力; 与NumPy间的互操作性; 且可与微软Azure相集成。此项目在GitHub上拥有超过13700颗星评与3600多次fork。
5. PredictionIO
作为Apache项目,PredictionIO是一款开源机器学习服务器,并能够利用Hadoop、HBase以及Spark等多种其它Apache大数据工具。企业经常利用它来实现lambda架构,其官方网站还提供一整套全面的机器学习堆栈,其中囊括Apache Spark、MLlib、HBase、Spray以及ELasticsearch。该项目的目标在于帮助数据科学家与开发者们快速创建预测引擎,并将其以Web服务的形式进行部署。此项目的GitHub页面显示,其拥有超过10900颗星评以及超过1777次fork。
6. Deeplearn.js
顾名思义,deeplearn.js是一套面向深度学习的JavaScript库。其允许用户在浏览器当中训练神经网络。与本份清单中提到的其它几款开源AI项目一样,它同样源自谷歌Brain小组之后,且谷歌公司一直在为该项目的发展提供助力。Deeplearn.js当中包含两个独立API:一个负责实现与NumPy类似的急切执行模式,另一个则提供类似于TensorFlow的延迟执行模式。在GitHub上,该项目拥有6000多颗星评与超过550次fork。
7. Pattern
Pattern由安特卫普大学计算语言学与心理语言学(简称CLiPS)研究中心所打造。其提供多种人工智能功能,具体包括数据挖掘、自然语言处理、机器学习、网络分析以及可视化。其基于Python,且捆绑有50多个示例与350多项单元测试。GitHub用户为其给出了超过6000个星评,fork次数亦超过1100次。
8. Turi Create
Turi Create允许非技术专家创建属于自己的机器学习模型,且无需编写大量代码。其适用于创建推荐引擎、图像分析工具以及文本分类引擎,且提供多种算法以实现分类、回归、图形分析、聚类、最近邻、主题模式等等。尽管刚刚由苹果公司发布在GitHub上(2017年12月),但其仍然快速吸引到人们的关注,目前拥有超过5700颗星评以及490多次fork。
9. Aerosolve
由爱彼迎创建的Aerosolve是一款人工智能工具,特别擅长处理地理数据。之所以声名大噪,是因为其拥有“人性化”的设计思路。其主要功能包括基于资源节约理念的特征表达、特征转换语言、可调试模型、Java与Scala支持以及图像内容分析代码。在GitHub页面中,该项目拥有超过4200颗星评与550多次fork。
10. DSSTNE
由Amazon公司打造的DSSTNE(发音为‘Destiny’)代表着“深层可扩展稀疏张量网络引擎”。网络购物巨头利用它来创建自己的推荐引擎,但其出色的能力也引起了其它零售商与在线企业的关注。根据开发人员所言,其在机器学习训练数据稀缺类用例当中发挥着巨大的作用。在GitHub上,该项目拥有4000多颗星评与超过660次fork。