ds啥意思(一文带你读懂DS、DA的区别和联系)
大数据日益发展的今天,大家经常会听到这两个名词:Data Science (数据科学)和Data Analytics (数据分析)。并且在各类招聘信息上也经常看到Data Scientist(数据科学家)和Data Analyst(数据分析师)的岗位。
很多人Get不到这两个研究方向或是两个岗位具体工作内容的差别,容易混淆二者的概念及范围,今天小编用这篇文章带大家彻底搞个清楚。
我们首先找了LinkedIn上几千家公司关于招聘Data Scientist的工作描述,并用SmartNoteBook进行了分析,最终生成DS、DA、DE(Data Engineer)的词云图如下:
可以看到Data Scientist(数据科学家)主要需具备的技能有modeling,machine learning,algorithm等,掌握的语言或工具有python,jupyter,NoteBooks,sql等。

Data Analyst(数据分析师)主要需掌握Excel,sql,sas,tableau,modeling等工具和技能。

至于Data Engineer(数据工程师),则主要需掌握ETL,Hadoop,cloud,tableau,modeling等工具和技能。

DS和DA的区别
现实生活中,石油经过炼化工序变成燃油类产品,然后经过精炼程序最终变成高端化工品及各类新材料;相应的,在大数据领域,原始杂乱无章的数据经过数据分析(DA)转变为分析可视化BI产品,然后通过数据科学(DS)精炼为智能化产品,从而支持各类创新业务模式:

我们再来看一张对比表:
_ | DS | DA |
目标 | 发现新问题/新模式以推动创新 | 使用现有模式/数据支持决策 |
范围 | 宏观 | 微观 |
技能 | - 数据建模 - 预测分析 - 高级统计 - 软件工程 | - BI工具 - 中级统计 - 编程能力 - SQL |
应用 | - 搜索引擎 - 机器学习 - 人工智能 - 非结构化数据 | - 数据可视化 - 设计原则 - 结构化数据 |
从表中我们看到二者:
第一,目标不同。数据科学的主要目标是通过研究数据,获得洞察力和理解力,进而发现新问题或新模式来推动创新,最终为现实世界服务。而数据分析的主要目标是使用现有数据/模式来获取信息和可视化洞察,分析历史数据以对其进行解释,监视当前状态并查找业务趋势的模式,最终用来支持决策。
第二,关注范围。数据科学是一个多学科的宏观领域,涉及面非常广泛,负责处理“数据”的整个科学和实践。因此数据科学往往侧重于对一般性宏观问题的研究(探索未知)。而数据分析相对是一个微观领域,往往侧重于解决特定行业或具体问题的挑战(问题已知)。
第三,技能要求。数据科学对数学统计知识和编程的要求更高,需要理解微积分线性代数,概率分布,假设检验,AB Test等,并具备数据建模和软件工程思维。数据分析同样需要一定的数学统计只是,但重点要具备SQL取数并熟练使用BI工具进行可视化分析和展现的能力。
第四,应用领域。通常数据科学用于搜索引擎以及人工智能 (AI) 和机器学习 (ML) 等领域,主要用于处理大量非结构化的数据。数据分析主要用在数据可视化展现的应用场景,主要处理结构化数据。
什么是DS(数据科学)?
定义和目的:
Data Science 数据科学是一个多学科领域,致力于从大量原始数据和结构化数据中找到可行的见解,该领域主要着眼于对我们不知道我们不知道的事情的发掘答案,数据科学专家使用几种不同的技术来获取答案,这些技术结合了计算机科学,预测分析,统计数据和机器学习来解析大量数据集,从而为尚未想到的问题建立解决方案,数据科学家的主要目标是提出问题并找到潜在的研究途径,对特定答案的关注较少,而更着重于寻找正确的问题,专家可以通过预测潜在趋势,探索不同的数据源以及寻找更好的方法来分析信息来实现这一目标。
一般过程:
在《Doing DataScience》一书中有这样一段描述:
The data science process is really just an extension of the scientific method:
1.Ask a question.
2.Do background research.
3.Construct a hypothesis.
4.Test your hypothesis by doing an experiment.
5.Analyze your data and draw a conclusion.
6.Communicate your results.
我们翻译过来,数据科学过程实际上只是科学方法的延伸:
1.提问。
2.做背景研究。
3.构建你的假设。
4.通过做实验来检验你的假设。
5.分析数据并得出结论。
6.分享交流你的结果。

典型的数据科学7个实施步骤如下:
第一,数据采集。按数据来源我们可以分为内部数据和外部数据采集。内部采集主要指对接企业内部各个系统的数据库,这种采集方式最为常见,获取数据更加方便并且数据可靠性高;外部采集主要通过爬虫或API,通常在个人项目、公司资源不足以提供数据、原始数据不足需要扩展数据情况下使用。
第二,数据清洗与预处理。当数据不稳定,错误较多,质量较差时,我们前期需要进行大量的数据清洗工作。比如检查数据合理性、有效性、数据缺失情况等等。对于缺失数据或异常数据,我们都要对数据进行预处理。
第三,特征工程。“特征工程决定了机器学习的上限,模型只是逼近这个上限”。特征工程往往是打开数据密码的钥匙,是数据科学中最有创造力的一部分。特征工程就是通过X,创造新的X'。基本的操作包括,衍生(升维),筛选(降维)。特征工程说起来简单,但在实际工作中,衍生和筛选都是困难重重,甚至需要非常专业的业务专家知识。
第四,模型调优。同一个模型不同参数下的表现依然是天差地别,通常在特征工程部分结束后就进入到模型参数调优的步骤。一般来说,模型调优有 3 个方向:选择更好的算法,调优模型参数,改进数据。
第五,模型融合。一般来讲,任何一个模型在预测上都无法达到一个很好的结果,这是因为通常来说单个模型无法拟合所有数据,及不具备对所有未知数据的泛化能力,因此需要对多个模型进行融合;即将多个单模型的输出作为输入送入到某个模型中,让模型去做融合,通常可以达到最好的效果,但也要注意过拟合问题;
第六,模型验证。模型验证是数据科学中的一项基础方法。如果使用得当,它可以有效评估机器学习模型在新数据上的表现。不仅可以帮助确定要使用的算法和参数,也可以防止训练过程中出现过拟合。
第七,模型部署。对于一个模型来说,完成以上过程通常并不意味着结束,真正的挑战才真正开始。模型服务部署是数据科学中十分重要的环节,因为只有当完成了模型部署,才能真正为业务创造价值。
DS的常用场景举例:
1) 推荐系统:推荐系统可以预测某个用户是否愿意购买某个商品,并帮助用户快速找到相关产品。许多电商巨头,如亚马逊,京东等,都在使用推荐系统。通过顾客的历史数据来研究顾客的喜好,为客户提供购买建议和相关的商品。
2) 计算广告:计算广告比传统的数字广告形式能够获得更高CTR(点击通过率 Click-Through-Rate )。无论是华丽的展示横幅还是交互式的数字广告牌,数字科学算法是这些数字广告成功背后的支撑。
3) 网络搜索:搜索引擎可以在很短的时间内得到任何结果。例如,Google搜索使用数据科学技术能够在几分之一秒内搜索特定结果。
DS的工作和技能描述
数据科学家Data Scientist是一个跨学科人才,需要比软件工程师更擅长统计学,比统计学家更擅长软件工程。掌握的知识有数学统计,编程能力,机器学习,研究能力等等。
- 常用软件:Python, R, SQL, Spark, Cloud, Git
- 工作内容:
日常有很多数据分析(DA)的工作内容,但在分析时会常用到机器学习模型来做训练和预测。如果数据量大还会用到spark做distributed computing。
- 知识技能:
对数学统计知识要求较高,除各种机器学习模型外,还需理解微积分线性代数,概率分布,假设检验,AB Test等。SQL和编程能力(Python、R)必须具备,并熟练使用各种机器学习包。由于Spark可以提供分布式数据集的抽象,使得编程模型更灵活和高效,并能够充分利用内存来提升性能,因此数据科学家掌握Spark也非常重要。另外沟通能力和商业敏感度也很重要
什么是DA(数据分析)?
定义和目的:
Data Analytics数据分析专注于处理和执行现有数据集的统计分析,分析师专注于创建捕获,处理和组织数据的方法,以发现有关当前问题的可行见解,并建立呈现此数据的方法,更简单地说,数据和分析领域的目的是解决我们不知道答案的问题,更重要的是,它基于产生可立即改善的结果,数据分析还涵盖了更广泛的统计和分析的几个不同分支,这些分支有助于组合各种数据源并查找连接,同时简化结果。
一般过程:
第一步,明确思路,制定计划。清晰的数据分析思路是有效进行数据分析的首要条件,清晰的思路也是整个数据分析过程的起点。思路清晰,可为资料的收集、处理和分析提供明确的指导。
第二步,数据收集。采集内部数据(数据库)和外部数据(爬虫、API等)。
第三步,数据处理。从大量、混乱、难懂的数据中提取并导出有价值的、有意义的数据。数据处理主要包括数据清洗、数据转换、数据提取、数据计算等处理方法。
第四步,数据分析。运用适当的分析方法和工具,对收集到和处理过的数据进行分析,提取出有价值的信息,形成有效结论的过程。
第五步,数据展示。通过数据分析,隐藏在数据中的关系和规律将逐渐出现。此时,数据展示模式的选择尤为重要。选择合适的图表展现方式可以起到事半功倍的效果,提高理解效率。
第六步,报告撰写。数据分析报告是对整个数据分析过程的总结与呈现。数据分析的原因、过程、结果和建议通过报告完整呈现,供决策者参考。一个好的数据分析报告,不仅要有明确的结论、建议和解决方案,而且要图文结合、有层次,可以让读者一目了然。
DA的常用场景举例:
1) 能源管理:很多能源型企业使用数据分析进行能源管理,包括智能电网能源、公用事业公司的建筑自动化、能源优化和能源分配等。通过数据分析技术,可以让工程师充分了解和监控他们的能源网络。
2) 医疗行业:成本压力是医院面临的主要挑战,这也限制了医院有效治疗更多的病人。而通过收集和分析仪器数据可以进行跟踪和优化治疗。
3) 游戏:通过收集和分析数据,可以让游戏公司更好地洞察用户的喜好、厌恶和关系,以此来不断优化产品和提高游戏体验,让用户投入更多的时间和花费。
4) 旅游:通过对海量网络社交媒体的数据分析,能够将顾客的喜好和欲望提取出来。从而帮助旅游公司制定报价和套餐策略,并客户的后续浏览情况进行优化和推广,实现更好的订单转化。
Data Analyst的工作和技能描述:
- 常用软件:Excel, SQL, Tableau, Power BI, Python, PPT
- 工作内容:
DA侧重于分析与报告,简单来说就是通过整合和处理数据来分析问题,获得商业洞察。首先要理解用户需求,然后用SQL将相关数据从数据库中提取出来,然后使用各类分析工具如Excel, Power BI, Tableau, Python等对数据做整合、分组、对比、做指标、特征提取等处理,进而对数据进行分析,最后将分析成果做成Dashboard汇报给用户
- 知识技能:不需要太多数学和编程知识,但需要会SQL 及各类BI及可视化工具,有些工作也需要使用Python来进行分析。常用的数据统计知识也需要知道一些。另外,沟通能力和商业理解力也非常重要。(完)
相关推荐
- 2025-04-01电视机为什么有电流声(电视机出现杂音,这是怎么回事?)
- 2025-04-01白芨为什么贵(现在农村最贵的药材有哪些?)
- 2025-04-01为什么富贵竹养不活(富贵竹已被拉入黑名单,原因有4点)
- 2025-04-01别墅为什么不好出手(二手别墅为何卖不掉?)
- 2025-04-01鸿运当头为什么不红了(鸿运当头不红了怎么办)
- 2025-03-31财运在哪个方向以哪里为标准(怎么找财位)
- 2025-03-31冰箱为什么要定期除冰呢?
- 2025-03-31为什么喜欢睡高枕头的原因(睡觉时,枕头越高越好)
- 2025-03-31冰箱为什么流水(冰箱流水怎么回事?)
- 2025-03-31为什么节能灯关了还会微亮(灯关掉了,还有微亮现象,怎么办?)