联系我们

全国统一资讯热线

17606398341

联系我们

在线QQ客服:3447469126

地址:青岛市市北区台东五路87号

邮箱:qdklod@126.com

网址:www.karatdata.com




新闻资讯
您现在所在的位置 : 首页 > 新闻资讯 > 行业新闻
青岛大数据讲解大数据分析时需要注意的事项

发布者: 发布于:2018/09/17 浏览量:142

留意点1:你的数据未必可靠

在实践运用中,有许多各式各样的原因会导致你的数据是不可靠的。因而,当你将数据用于处理问题前,必须常常留心来查看数据是否值得信任。假如基于糟糕的数据来发掘,不管多么聪明的人也永久只会取得糟糕的成果。下面列举了一些常见的可导致数据可靠性问题的要素:

用于开发的数据,往往和实践情况下的数据分布不同。例如或许你想把用户依照身高划分为“高”、“中等”、“矮”三档,但假如体系开发时运用的数据集里最低用户的身高是6英尺(184cm),那么很有可能你开发出来的体系里会把一个“仅有6英尺”的用户称为“矮”用户

你的数据会集存在许多缺失数据。事实上,除非是人为结构的数据调集,不然很难防止缺失数据问题的发作,怎么处理数据缺失的问题是很有技巧的工作。实践中咱们要么是爽性丢掉一部分残损的数据,要么就是想办法核算一些数值去填补这些缺失值。不管哪种办法都可能导致运用成果的不稳定

你的数据可能随时在改变。数据库的表结构可能会变,数据定义也可能会变

你的数据可能没有被归一化。假定你可能在观察一组用户的体重,为了可以取得有用的定论,首要需求对每个体重的衡量单位进行归一化,是英镑仍是公斤,不能混杂着用

你的数据可能并不适用于相应的算法。数据存在着各式各样的方式和标准,或许叫数据类型(data types),有些是数值化的数据,有些则不是。有些数据调集能被有序排列,有些则做不到。有些是离散化的数据(例如房间里的人数),另一些则是接连化的(例如气温或许气压等数据)

留意点2:核算难以瞬间完结

完结任何一个人工智能处理计划的核算,都需求必定的时刻,计划的响应速度,对商业运用的成功与否起到十分关键的作用。不能总是盲目假定任何算法在所有数据集上都必定能在规则时刻内完结,你需求测验下算法的功能是否在可接受的运用范围内。

以搜索引擎为例,用户对成果返回的时长是有忍耐的极限的。假如用户等候的时刻超越10秒,50%的用户会丢失,假如等候时刻超越1分钟,90%以上的用户会丢失。在开发智能运用体系时,不能为了到达更好的算法精度而疏忽体系运算和等候的时刻,不然会导致整个产品的失败。

留意点3:数据的规划非常重要

当咱们考虑智能运用时,数据规划是很重要的要素。数据规划的影响可以分为两点来调查:第一点是规划会影响运用体系的响应速度,上一节咱们刚提过;第二点是在很大的数据集上的发掘出有价值成果的才能会遭到检测。例如为100个用户开发的电影或音乐推荐体系可能作用很好,可是同样的算法移植到有着100000个用户的环境里,作用可能就不尽善尽美了。

其次,运用更多的数据来练习的简略算法,比受制于维度诅咒(Dimension Curse)的杂乱算法往往有好得多的作用。相似Google这样具有海量数据的大型企业,优异的运用作用不只来自于精妙杂乱的算法,也来自于其对海量练习数据的大规划剖析发掘。
留意点4:不同的算法具有不同的扩展才能

咱们不能假定智能运用体系都可以经过简略添加服务器的办法来扩展功能。有些算法是有扩展性的,而另一些则不可。

例如假如咱们要从数亿的文章标题里,找出标题相似的各个组的文章,留意并不是所有的聚类算法此刻都能并行化运行的,你应该在规划体系的一起就考虑可扩展性。有些情况下你需求将数据切分红较小的调集,并可以让智能算法在各个调集上并行运行。规划体系时所挑选的算法,往往需求有并行化的版别,而在一开始就需求将其归入考虑,由于一般围绕着算法还会有许多相关联的商业逻辑和体系结构需求同时考虑。

留意点5:并不存在全能的办法

你可能听说过一句谚语“当你有了把榔头的时分,看什么东西都像钉子”,这里想表达的意思是:并不存在可以处理所有智能运用问题的全能算法。

智能运用软件和其他所有软件相似——具有其特定的运用领域和局限性。当面临新的运用领域时,必定要充沛的验证原有办法的可行性,而且你最好能尝试用全新的视角来调查问题,由于不同的算法在处理特定的问题时才会更有用和妥当。

文章关键词:青岛大数据

 

CopyRight© 2015-2018 , All Rights Reserved.   版权所有:青岛克拉欧德数据科技有限公司   备案号:鲁ICP备16019955号
点击这里给我发消息