2021-09-21 11:11:07 来源:
十年前,我以为我了解大数据。我在信息技术领域工作了十多年,并经营着一个部门,负责处理波士顿一些臭名昭著的诉讼的文档。我记得必须订购新的驱动器和存储设备来处理我们不幸的员工必须搜索和阅读的千兆字节和千兆字节的文档和电子邮件。我想那是很…多数据。
快进七年,职业生涯发生了变化,我发现自己在亚马逊上对他们的数据仓库运行SQL查询。数据库的范围真的让我大吃一惊; 我不得不拿出一些技巧,甚至拉下一个星期的摘要数据,而不会让它窒息或溢出Excel。我以为我已经明白什么是大数据,但事实证明我不知道。
大数据已经成为一个流行语,以至于它实际上毫无意义。在上周的一次聚会上,我听到有人说: “现在每个公司都是大数据公司。”当我要求他澄清时,他说每个公司都买卖大数据。虽然我当然同意所有公司都可以使用大数据或基于大数据的应用程序,但并不是所有公司都将其商业模式建立在其基础上。在我的职业生涯中,我经常被这种误解绊倒,甚至自己也分享了一些误解。现在我在一家大数据公司工作,我更了解。
以下是我看到高管在谈论大数据时犯的六个最大错误:
根据Gartner的说法,大数据必须是大容量,高速度和/或高多样性的数据。这意味着,如果您的数据可以放入Excel文件中,那么您就不会处理大数据。如果您只处理以千兆字节为单位的数据集,而您的pC可以处理它,那么您就不是在处理大数据。也许你正在处理许多千兆字节的电子邮件,你不能说出如何处理它,但这并不意味着它是大数据。
我遇到了一些高管,他们认为大数据可以解决所有问题。他们中的许多人都掌握大数据分析来解决问题,而不是使用常识。我曾经坐在一个高管的房间里,他们试图弄清楚为什么我们一周一周的网站访问量和销售额在4月的一周内急剧下降,但前一年的同一周却没有经历同样的下降。他们要求进行一次又一次的分析,直到有人说: “好吧,我们看到复活节每年都在减少,而复活节在去年3月。”大数据和分析并没有帮助我们做到这一点,但是常识和日历确实做到了。
关于大数据的 “一切” 误解的另一面是: 大数据并不重要。我觉得这种观点更容易理解,因为大数据的定义表明它很难处理和理解。如果您无法从大数据中提取见解或无法使用它来为您的系统提供动力,那确实是毫无意义的。我怀疑这个阵营的高管们已经了解了大数据,但从未从中学到任何东西。
为了让大数据变得不那么毫无意义,你需要能够处理和使用它,而大数据公司会让它变得更容易。他们通过收集数据,清理数据,组织数据并以数据科学家或其他系统可以处理的方式输出数据来做到这一点。一旦数据科学家从数据中提取故事,或者您的系统使用数据来执行供应链等业务操作,高管将开始看到大数据的价值。
关于大数据的许多事情听起来都很容易,例如考虑获取世界上每种产品的信息和价格,或者跟踪每个网站的每个访问者。因为很容易将大型数据集概念化,所以许多高管认为,收集和操纵该数据集应该同样容易。
不幸的是,这是一个常见的误解。例如,让我们看看获取世界上每一种产品的信息和价格 (免责声明: 这就是我的公司所做的)。对于单个产品,例如一双鞋,我们需要收集以下数据:
BrandCategoryStyleColorHeel heightmaterialsizewidthstores出售每个商店的价格在每个商店的价格中随时间推移是否有库存这是数学: 我们的数据库显示,有11个不同的零售商携带这种鞋,它是一种颜色和一种宽度。假设我们每周收集每个商店的价格和库存数据,并且鞋子在市场上停留了一年。这意味着我们有572关于这双鞋的记录。如果我们要跟踪所有16个女士尺码 (4 - 12) 的价格½和库存信息,则该数字为9,152。这是针对一双鞋的-收集鞋柜中每一双鞋的数据将创建比我所承认的更多的数据点。
增加了复杂性,在需求旺盛的时期和动荡的站点,我们每周收集价格的频率比每周一次高。每日价格和库存信息将意味着一双鞋的4,015数据点。添加描述性产品信息,以及每种尺寸在亚马逊等网站上可能具有不同价格的可能性,并且一双鞋的数据迅速扩展。想象一下,将这乘以数十亿的产品,然后将其放入您的电子表格中。大数据的规模挑战了传统的收集和分析系统。
这个错误让我最疯狂,因为规模上的完美基本上是不可能的。假设我们持有10亿的产品,每个数据点都对IT部门试图实现的令人垂涎的 “五个9” 标准 (99.999%) 负责520。在这个数据集中仍然会有5200万不正确的数据点。
大数据很少达到这种完美程度,原因很多。许多大数据源远非完美。我公司作为我们的大数据源之一抓取的网站很容易在产品名称中出现错别字。大数据还需要大量的机器学习和算法来对其进行结构化和组织; 在产品数据领域,这些很容易根据标题或名称对产品进行错误分类。例如,算法会将Marcy playground专辑放在游乐场设备中还是音乐中?
然而,不完美并不意味着无用。有能力的数据分析师可以消除异常值,并从大数据中提取重要的见解,即使存在缺陷。开发人员可以添加过滤器,以减少错误进入您的系统,并在庞大的数据集上开发训练算法,这些算法将随着时间的推移提高数据质量。大数据的最大好处之一是,体积将弥补偶尔的不完美,让你有更好的洞察力。
小型营销公司需要网站流量和关键词搜索号码。小型社交购物公司需要从拥有会员计划的大型零售商那里获得尽可能多的产品链接。小型按需交付服务需要可靠的位置数据。这只是无休止的需要大数据的小公司名单中的一小部分。
大公司可能会产生更多自己的大数据,但是在我们的现代经济中,几乎每个公司都使用大数据或基于大数据的应用程序。这意味着所有公司都可以从访问这些庞大数据集提供的见解和信息中受益,而无需构建和管理创建和分析大数据所需的基础架构。
无论您的公司规模大小,如今的业务都无法逃避大数据。希望这能消除您可能有的任何误解-毕竟,在生活在大数据世界之前,我有很多误解。如果高管们更好地理解大数据的复杂性、陷阱和力量,他们将经营更好的业务,做出更好的决策,在聚会上发表更少的愚蠢评论。
免责声明:本网站所有信息仅供参考,不做交易和服务的根据,如自行使用本网资料发生偏差,本站概不负责,亦不负任何法律责任。如有侵权行为,请第一时间联系我们修改或删除,多谢。
© 2018 今日中国财经 版权所有