从DeepSeek爆火看AI真相:数据不好,模型白跑!
近日,国产大模型DeepSeek因其强大的推理能力和开放源码策略在业内引发热议,掀起了新一轮人工智能(AI)技术讨论热潮。与以往被称为“颠覆性”的技术不同,AI的影响已远超炒作,它正以惊人的速度重塑各行各业。
无论是识别海量数据中的模式,还是自动化、优化重复性任务,AI已经帮助无数企业节省时间和成本,让人类能够专注于更具创造性和复杂性的高价值工作。
然而,无论DeepSeek还是其他大模型,其背后成功的核心,都离不开高质量数据的支持。AI强大的能力必须依赖准确、完整的数据输入,才能发挥最大价值。否则,即使再先进的算法,也可能因数据质量问题而导致错误决策或偏差结果。
AI能够同时感知静态与动态的海量信息,这一能力可以帮助企业优化多项运营流程。以销售和市场团队为例,即便预算有限,他们也能利用AI生成预测性分析,根据潜在客户的行为和偏好进行细分。这不仅能更准确地评估潜在客户,还能更精准地个性化互动,并识别出高潜力目标。
值得注意的是,AI并非单一概念,而是涵盖多种智能系统的总称,针对不同目标提供解决方案。自动驾驶汽车使用的计算机视觉是一种AI,虚拟助手如Alexa和Siri能够响应语音指令。在全球商业领域,AI通常指生成式AI(如DeepSeek、ChatGPT和其他大型语言模型)和机器学习,前者可根据人类语言提示生成内容,后者则通过算法在数据中寻找模式并执行相关任务。本文中的“AI”将主要指这两类主流技术。
尽管AI功能强大且多样化,但它并非魔法。所有AI应用的核心在于数据的准确性。因此,确保数据的实时更新、易于访问和良好组织,是当下各组织的当务之急。
为什么AI需要准确数据
俗话说:“垃圾进,垃圾出。”这意味着用于训练AI模型的数据质量,直接决定其输出结果的好坏。就像一位初入职场的天才实习生,AI虽然能快速完成任务,甚至发现人工分析师可能忽略的趋势,但若想真正发挥作用,它需要大量相关数据来支撑其假设和行为。
高质量数据更可能带来优质成果,而不可靠数据则会导致虚假、偏见及其他错误。而不可靠数据在现实中又极为常见:某知名机构的研究显示,大约三分之一的AI项目因数据管理薄弱而失败。
尽管企业在数据质量方面已有所提升,但这些数据并未被充分应用于AI项目中。根据我们的《2024年B2B数据报告》,近70%的受访者表示其所在组织有意在未来2-3年内采用AI技术,然而,真正对自身数据质量充满信心的企业却少之又少,他们无法确定现有数据是否足以支持AI带来实质性收益并有效规避风险。
不可靠数据如何误导AI
数据出错的方式多种多样,以下是一些常见的数据问题及其对AI性能的影响:
-
数据缺失:当信息缺失时,生成式AI往往会输出虚假且离奇的内容,却不会表明其信息来源不足。比如,谷歌的AI曾被问及如何让奶酪黏在披萨上——这是一个非常少见的问题。由于数据不足,AI“灵机一动”地建议使用胶水。
-
数据不准确或存在偏见:当数据包含错误或偏见信息时,AI往往会放大这些错误。这被称为算法偏见,可能带来严重后果。例如,有医疗算法系统曾持续低估黑人患者的健康风险。
-
数据过时:AI模型需要时间来摄取数据,这会导致感知延迟(延时性)。许多AI无法识别近几周或几个月内发生的事件。例如,Zillow因依赖过时数据做出即时决策,在房地产投资中损失了5亿美元。
-
数据错误:拼写错误和重复记录等常见数据问题,会微妙地削弱AI的分析能力,导致输出结果混乱。
AI遇到低质量数据的后果
AI错误的案例屡见不鲜。我们提到的谷歌AI建议在披萨上用胶水的事件,源于Reddit上一条11年前的评论。此外,它还建议每天吃一块小石头以促进健康,而这一建议最初来自讽刺杂志《洋葱报》。2023年,微软新推出的Bing聊天机器人在测试期间对一名美联社科技记者“大肆辱骂”,甚至将该记者与希特勒和斯大林等独裁者相提并论。
而对于企业来说,AI错误的代价不容忽视。无论是滑稽还是严重失误,这些错误都可能导致效率低下、系统损坏、决策失误和经济损失。例如,采购团队可能依赖AI驱动的自动化供应商风险管理平台来履行负责任采购的义务。这些系统通过处理结构化和非结构化数据,生成公司档案和评级。但若数据错误,某关键供应商可能被错误标记为高风险,进而危及供应商关系,甚至导致客户流失和收入下降。
同时,企业也会面临声誉受损的状况。例如,销售和市场团队可能在不知情的情况下使用泄露客户敏感信息或违反隐私法规的数据。这不仅会引发监管审查和诉讼,还会失去客户和投资者的信任。一旦信任丧失,恢复将极为艰难。
使用主数据管理提升数据质量
为了确保AI正常运行,数据必须准确、完整且易于访问。这就是许多企业采用主数据管理来保持数据一致性和有序性的原因。
主数据管理是一系列旨在统一企业数据的实践和技术,以创建“单一事实源”或所谓的“黄金记录”。主数据管理旨在消除数据孤岛,解决冲突和重复记录,确保所有利益相关者都能访问最新信息,从而帮助大型组织保持协调一致。
企业在采用生成式AI或机器学习技术时,主数据管理显得尤为重要。AI在质疑或调查可疑数据方面的能力尚无法与人类匹敌。为了防止AI模型被错误训练或形成偏见,必须始终保持数据的合规、准确和有序。
幸运的是,AI本身也能帮助企业提升主数据管理,具体体现在以下方面:
-
数据整合、清洗与验证:减少错误,提升数据一致性
-
数据丰富:增加数据价值
-
制定可操作的洞察方案:助力决策制定
-
识别人类分析师难以察觉的细微或广泛趋势
-
欺诈检测
-
现金流与收入管理
邓白氏主数据管理解决方案基于邓白氏数据云对目标数据进行匹配、去重、更新, 确保每条公司记录包含更为准确的企业深度数据与企业层级关联关系。 随着组织的发展,持续维护各部门的数据质量, 以确保其准确性、完整性、及时性和全球一致性。
根据SiriusDecisions的研究,主动维护销售和营销数据库的公司与不做维护的公司相比,收入转化高出66%。财务专家们都认为即使是最完善的数据管理计划,在实施过程中也需要进行及时的更新与调整。邓白氏提供的服务和支持将持续帮助企业团队走好属于他们自己的数据管理之旅。