大数据时代帮助信息民主化,创造了大量数据,并为技术型公司带来了收入增长。但是,对于所有这些智能,我们并没有从机器学习(ML)领域获得人们可能期望的洞察力,因为许多公司都在努力使ML项目具有可操作性和有用性。
一个成功的AI / ML程序并不是从一个庞大的数据科学家团队开始的。它始于强大的数据基础设施。数据需要跨系统访问并准备好进行分析,以便数据科学家可以快速进行比较并提供业务结果,并且数据需要可靠,这表明了许多公司在启动数据科学计划时所要面临的挑战。
问题在于,许多公司首先跳入数据科学领域,聘请昂贵的数据科学家,然后发现他们没有数据科学家成功所需的工具或基础设施。高薪的研究人员最终将时间花在分类、验证和准备数据上——而不是寻找见解。这项基础设施工作不仅很重要,而且缺少了这一步也容易错失了数据科学家以最优的方式利用其最有用技能的机会。
数据管理的挑战
当领导者评估数据科学项目成功或失败的原因时(87%的项目从未投入生产),他们通常会发现,他们的公司试图在没有建立可靠数据基础的情况下取得成果。如果没有坚实的基础,数据工程师可能要将44%的时间用于维护API或数据结构更改的数据管道。
创建一个集成数据的自动化过程可以让工程师们有时间,并确保公司拥有准确的机器学习所需的所有数据。这也有助于在公司构建数据科学功能时降低成本并最大限度地提高效率。
狭隘的数据产生狭隘的见解
机器学习是挑剔的——如果数据中存在差距,或者格式不正确,机器学习要么无法正常工作,要么更糟,给出不准确的结果。
当公司对其数据感到不确定时,大多数组织要求数据科学团队手动将数据集标记为受监督的机器学习的一部分,但这是一个耗时的过程,会给项目带来额外的风险。
更糟糕的是,当训练示例由于数据问题而被删减得太多时,狭窄的范围可能意味着ML模型只能告诉我们我们已经知道的东西。
解决方案是确保团队能够从一个全面、集中的数据存储中获取数据,包括各种各样的数据源,并提供对数据的共享理解。
这是通过提供更一致的数据来提高ML模型的潜在ROI。数据科学计划只有在基于可靠、一致的数据和对结果置信度的理解的基础上才能发展。
大模型与有价值数据
成功的数据科学计划面临的最大挑战之一是在进行预测时平衡数据的数量和价值。每天分析数十亿次互动的社交媒体公司可以使用大量相对低价值的操作(例如,向上滑动或分享文章)来做出可靠的预测。
但如果一家公司试图确定哪些客户可能会在年底续签合同,那么它可能会使用较小的数据集。由于可能需要一年时间才能确定建议的行动是否成功,这为数据科学计划带来了巨大的局限性。
在这些情况下,公司需要打破内部数据孤岛,将所有数据结合起来,以提出最佳建议。
这可能包括用门控内容捕获的零方数据、第一方网站数据、来自客户与产品交互的数据,以及成功结果、客户满意度调查,甚至用户反馈等非结构化数据等。
所有这些数据来源都包含客户是否会续签合同的线索。通过将业务组中的数据筒仓结合起来,可以标准化度量,并且有足够的深度和广度来创建自信的预测。
为了避免对AI/ML项目的信心和回报下降的陷阱,公司可以采取以下步骤:
1.清楚从哪里开始。您的企业是否清楚地了解ML如何为业务做出贡献?您的公司是否已准备好基础架构?不要试图在模糊的数据上添加花哨的镀金,要清楚你从哪里开始,这样您就不会跳得太远。
2.将所有数据集中在一个位置。确保已识别并集成了中央云服务或数据湖。一旦一切都集中起来,您就可以开始对数据采取行动,并发现可靠性上的任何差异。
3.理清逻辑和顺序。在构建数据科学程序时,应从正确的操作顺序开始。首先关注数据分析和商业智能,然后建立数据工程,最后是数据科学团队。
4.不要忘记基础工作。一旦你将所有数据组合、清理和验证,那么你就可以开始做数据科学了。但别忘了维持一个能带来显著成果的基础所必需的"内务"工作。这些基本任务包括投资于编目和数据卫生,确保针对将改善客户体验的正确指标,以及手动维护系统之间的数据连接或使用基础设施服务。
通过为数据科学构建正确的基础设施,公司可以看到对业务重要的地方,以及盲点在哪里。首先做基础工作可以提供可靠的投资回报率,但更重要的是,它将建立数据科学团队,以产生重大影响。
为一个华丽的数据科学项目获得预算相对容易,但请记住,大多数这样的项目都失败了。为"无聊"的基础设施任务获得预算并不容易, 但数据管理为数据科学家提供了基础,使其能够对业务产生更有意义的影响。