您好,欢迎来到中国企业库   [请登陆]  [免费注册]
小程序  
APP  
微信公众号  
手机版  
 [ 免责声明 ]     [ 举报 ]
企业库免费B2B网站
搜产品 搜企业
客服电话:400-000-8722

【专家视点】宝钢专家郭朝晖:工业界不能照抄的大数据理论

微信品牌推广联系电话:010-63807255

【本文得到宝钢专家郭朝晖授权发表】

大数据有两个著名的理论:1、强调相关而非因果;2、不要求数据结构化。它们不可盲目地用于工业界。下面,我们通过分析两个观点产生的背景,来说明自己的观点。

首先看“强调相关性而非因果性”。大数据强调相关性的原因是:在数据量很大的前提下,许多意识不到的相关性可被揭示出来。这些相关关系本身就是一种客观存在。典型的例子就是啤酒与尿布:它们的相关性是事先想不到的,但却是客观存在的。

这里有两层含义:‘意想不到’、‘相关性是客观存在’;两者共同肯定了相关性的价值:对容易想到的相关性,数据分析结果的价值是打折扣的,大数据的研究者往往更喜欢意想不到的发现。而作为‘客观存在’的相关性,意味着相关性可重现:不会因为你采用、认识了这种现象而破坏相关性。这意味着相关关系是可用的。

这样的背景在工业界往往不成立。原因同样有两点:意想不到的相关性很少、预料之外的相关性往往是假象。人们对工业过程的原理往往研究得很透,预料之外的相关性自然很少。偶尔碰到预料之外的情况,往往与系统内部的反馈或者抵消因素相关。这时的相关性往往是种假象,不具备可重现性。同时,由于工业应用对可靠性的要求很高。没有因果分析的保证,很难满足应用的要求。所以,本人认为:工业大数据要强调因果性,而不应止步于相关分析。

再看‘不要求数据结构化’。强调非结构化的原因是:大数据的来源很多都是非结构化,典型的如互联网数据。如果强调结构化,很多数据就没法用了,也就不再是大数据了。现在的有些算法,的确能从非结构化数据中获得有用的信息。笔者认为,这个观点是强调非结构化数据存在价值,而不是鼓励人们用非结构化的方式存储数据。

这种说法同样不宜在工业界提倡。原因很简单:结构化数据更容易使用。通过对数据的结构化,更加容易得到完整的信息、避免重要信息的遗漏;结构化数据也更容易查询。更重要的是:企业有条件将自己的数据结构化,而专业研究数据的机构或者个人往往没有这个能力。事实上,如果企业放弃对数据的结构化,数据的价值密度可能就与常见的搜索引擎差不多了,也就不能靠数据形成自身的优势。所以,企业建立大数据平台时,完全没必要放弃自己的这个优势。相反,企业的大数据平台一定要强调结构化,才能使数据成为自己的核心竞争力。

本信息来自郭朝晖博客

st

您看此文用 · 秒,分享只需1秒呦~




郑重声明:以上文章来源于网络,版权归原作者及其所在单位,其原创性以及文中陈述文字和内容未经(企业库www.qiyeku.com)证实,请读者仅作参考,并请自行核实相关内容。若本文有侵犯到您的版权, 请你提供相关证明及申请并与我们联系(qiyeku # qq.com)或【在线投诉】,我们审核后将会尽快处理。
会员咨询QQ群:902340051 入群验证:企业库会员咨询.

新的文章
 

《冶金自动化》

微信号:yjzdh1976
功能介绍:冶金自动化行业(包括钢铁、有色)的信息传播者,依靠我们全国冶金自动化信息网和中国计量协会冶金分会的资源,为企业服务,倾力打造优势期刊《冶金自动化》、《工业计量》.