第四范式 & Gartner 联合发布AutoML白皮书 《AI for Everyone - AutoML引领AI民主化之路》

2020年伊始,全球领先的研究和咨询机构Gartner发布了《2020年十大战略性技术趋势:民主化》报告,系统阐述了“AI民主化”在企业智能化转型过程中的意义,以及AutoML对实现AI民主化的关键作用。在该份报告中,第四范式获得了Gartner的认可,被列入了AutoML技术代表性厂商。为此,第四范式联合Gartner发布了全球首个针对AutoML的系列白皮书——《AI for Everyone,AutoML引领AI民主化》以及《AutoML成就指数级增长:感知、认知、决策算法布局提升企业决策水平》。



今天,AutoML正在帮助来自各行各业、处于不同技能水平和发展阶段的企业落地AI应用。毫无机器学习经验的医生使用AutoML,提升了新生儿体重预测的准确率;第三方互联网营销平台的科学家使用AutoML,相较专家规则进一步提升了广告推荐点击率;大型企业软件开发人员使用AutoML实现了AI应用的规模化落地,将应用上线周期由6个月缩短至1个月。


《AI for Everyone,AutoML引领AI民主化》报告结合了Gartner对企业AI应用现状的调查报告,针对企业AI应用过程中的两大关键挑战——高技能门槛和低开发效率,深入解析了支撑AI民主化的引领性技术AutoML,并提出实现AutoML落地的正确方式,旨在帮助企业从容面对智能化转型中的机遇和挑战。


AI人才供需严重失衡,深层原因是高人才门槛和低开发效率


近年来,成功应用AI所带来的业务价值增长,使得企业对AI应用需求呈现井喷增长趋势。Gartner预测,2022年企业平均部署人工智能和机器学习项目将达到35个。



2019-2022年企业AI/ML项目平均部署数量


面对即将到来的AI应用场景爆发,企业是否已经做好充足准备?答案是否定的。在Gartner调查中,56%的受访企业都将“人才不足”作为AI项目落地的首要挑战。



阻碍企业应用AI的主要挑战


AI人才不足体现在两个方面,一是数量匮乏。以中国地区为例,教育体系每年培养的AI高级人才数量只有千人级别,远远无法满足每年达百万级的AI场景数增长。二是分布不均,全球AI科学家高度集中在美国硅谷和北京中关村,而绝大多数企业所在地都没有足够的AI科学家。


人才缺失阻碍企业享受AI带来的红利,究其背后原因,是过高的人才门槛和低下的开发效率,导致AI人才无法实现快速培养并有效产出价值。


首先是人才门槛过高。传统机器学习模型构建通常由问题定义、数据收集、特征工程、模型训练、模型评估等环节组成。模型构建难度大、技术门槛高,往往需要具备专业知识的科学家完成。培养AI科学家的门槛极高,往往需要8-10年时间,即使是IT专业人员,没有经过长时间的学习和实践积累,也很难掌握模型构建、参数调整等关键技能。


其次是开发效率低下。即使那些投掷重金聘请科学家的企业,也并未收获到所期望的业务价值。这背后的突出问题是,科学家大量时间都消耗在数据、特征及模型选择等重复性工作上。而真正用于定义业务问题、提供创新性解决方案的时间却少之又少。这些工作占用了科学家的宝贵时间,导致其建模效率不足,使其无法发挥出企业所期待的价值,企业AI应用落地进程严重滞后。


AutoML开启企业AI民主化实践,让AI发展突破人的瓶颈


AI人才的高技能门槛和低开发效率,让人工智能的发展受制于“人”。AutoML作为支撑AI民主化发展的代表性技术,将赋予企业以低门槛、高效率实现AI规模化开发的能力。


AutoML通过自动化机器学习算法覆盖建模全流程,减少人在数据准备、特征工程、模型训练和模型评估等环节重复性工作,释放AI人才被浪费的宝贵时间,解决AI专业人才短缺和开发效率不足的难题。


Gartner预测,到2023年,有40%的公民数据科学家(即企业的IT开发者或业务人员)将使用自动化机器学习来完成业务场景的建模,这将极大程度释放AI带来的价值。


AutoML自动化机器学习建模全流程


目前,顶级AutoML建模效果已经与顶尖的数据科学家水平相当。在全球知名的Kaggle机器学习竞赛中,第四范式的AutoML算法在结构化和非结构化等挑战项目中的建模效果战胜了超过98%数据科学参赛选手,意味着每50位全球顶尖数据科学竞赛选手,只有1位能战胜第四范式的AutoML。


AutoML的大规模应用,需要以产品化形式输出和投产


顶尖的AutoML算法相当于AI应用构建的“引擎”。而AI应用的开发是一项非常复杂的精细化工程,涉及诸多环节。假如没有一套完整的AI开发工具,各个环节就会变成彼此割裂、互不兼容的“孤岛”,不仅导致科学家在开发过程中疲于奔命,也会让AI规模化变成“泡影”。只有打造基于AutoML算法“引擎”的“自动化工厂”,实现全面产品化,才能真正推动AI产业化落地。


为此,第四范式将AutoML算法进行了产品化封装,打造了一款低门槛、高效率、持续优化的自动化AI生产力平台Sage HyperCycle ML。作为一款成熟的企业级AutoML产品,Sage HyperCycle ML有三方面的优势,首先通过领先AutoML算法加持,降低了使用人员的技能门槛,使得AI应用开发不再局限于科学家,把企业IT开发者及业务人员转变为AI模型开发的生力军;其次是AI建模的全流程自动化,提升落地效率,将AI应用上线周期从以半年为单位缩短至周、天、乃至小时级别;此外,Sage HyperCycle ML的闭环自学习技术支持模型持续动态调优,实现小时、分钟乃至秒级的数据更新和模型迭代,解决了模型上线后模型迭代频率低、人力成本居高不下的问题。


极简界面的第四范式Sage HyperCycle ML平台


通过打造该平台,将AutoML算法嵌入到平台产品中,算法的“引擎”作用才可能充分发挥,从而支撑AI的规模化落地。


AI产品和工具的落地,需要正确的方法论指


AutoML的产品化,意味着机器学习项目取得了一半的成功。然而,模型应用上线过程中,错误的认知造成各种各样的问题和挑战。这些问题和挑战影响模型效果,延长建模周期,带来极大的人力和时间消耗,严重影响企业业务价值创造。


只有当AutoML产品被正确的使用,AI项目才能真正落地并创造业务价值。为此,第四范式凝练出AI项目落地的方法论,解决模型构建与模型应用上线之间存在的割裂问题,帮助企业实现AI应用落地。


具体来看,第四范式针对企业落地AI过程中四个方面的误区提出了解决办法。首先,在系统构建方面,企业应当搭建闭环的数据治理架构,明确定义AI的目标、行为和反馈,避免在数据治理过程中消耗大量不必要的精力;第二,在数据准备方面,企业应当基于线上的单一数据来源进行收集和处理,避免多来源数据的形式和逻辑不一致,导致模型效果与实验室效果产生巨大差距乃至反转;第三,在模型构建方面,企业应当利用自动化的机器学习平台实现全流程自动化,让业务人员也能开发AI模型,避免AI落地受制于“人”。第四,在模型上线后,企业应通过自学习技术保持模型效果的持续迭代,避免模型停滞不前,效果随时间推移而衰减。基于正确的方法论,企业利用AI产品实现AI的规模化落地将从理想变为现实。


总结来说,面对AI落地需求井喷和AI人才严重不足的失衡局面,AI民主化是实现AI规模化落地应用、创造更大商业价值的必然路径。而AutoML技术是AI民主化的关键技术支撑。通过将AutoML技术进行产品化嵌套,配合正确的落地方法论,构成一套系统的AutoML落地解决方案和路径,这将使更多的企业和人才有机会享受到AI带来的效率,从而释放巨大的商业价值。


完整报告限时免费获取通道已开通,点击链接获取。

https://www.gartner.com/technology/media-products/pdf.jsp?g=4Paradigm-1-1YA8UURF-CHS