数据科学家在 Glassdoor 上被评为 2019 年美国最佳工作。 基本工资中位数为 108,000 美元,工作满意度排名为 4.3(满分 5),加上预测的相当数量的职位空缺,这并不奇怪。 问题是:一个人必须做什么才能走上正轨才能胜任这份工作?
为了找出答案,我们寻找了那些寻求走上这条职业道路的人的建议。 很大程度上归结为编码和数学方面的硬技能。 但仅靠强大的计算并不能解决问题。 成功的数据科学家还需要能够以他们自己的方式与业务人员交谈,这需要与软技能和领导力相关的能力。 (要了解有关数据科学家职责的更多信息,请参阅工作角色:数据科学家。)
建立教育基础:三个主要技巧
NYC Data Science Academy 的数据科学家 Drace Zhan 强调需要一个包括编码和数学能力基本知识的教育基础:
R/Python + SQL。 如果你没有编码技能,你需要大量的网络能力和其他领域来弥补这一缺陷。 我见过数学能力薄弱且领域经验很少的数据科学家,但他们始终拥有强大的编码能力。 Python 是理想的,但 R 是一个很好的后备工具。 最好将两者都放在你的武器库中。 SQL 对于数据分析师来说也极其重要。
数学能力强。 对一些常用方法有很好的理解:广义线性模型、决策树、K 均值和统计测试比对各种模型或专业化(如 RNN)有一个广泛的了解要好。
这些是可以建立的核心技能,尽管一些专家增加了它们。 例如,KDnuggets 列表包括 Zhan 提到的编码组件,并在技术方面添加了一些其他有用的知识,包括 Hadoop 平台 Apache Spark、数据可视化、非结构化数据、机器学习和 AI。
但是,如果我们从一项关于 Kaggle 调查确定的现实生活中最常用工具的调查中获取线索,我们会得到一些不同的结果。 从下面的前 15 个选项的图表中可以看出,Python、R 和 SQL 轻松进入前三名,但第四名是 Jupyter notebooks,其次是 TensorFlow、Amazon Web Services、Unix shell、Tableau、C/C++、NoSQL 、MATLAB/Octave 和 Java,都领先于 Hadoop 和 Spark。 另一个可能会让人们感到惊讶的新增功能是 Microsoft 的 Excel Data Mining。
KDnuggets 列表还包括有关正规教育的提示。 大多数数据科学家拥有高级学位:46% 的人拥有博士学位,88% 的人至少拥有硕士学位。 他们拥有的本科学位通常分布在相关领域。 大约三分之一的人从事数学和统计学,这是该职业轨道中最受欢迎的。 其次最受欢迎的是计算机科学学位,占 19%,工程学位占 16%。 当然,数据科学特有的技术工具通常不会在学位课程中学习,而是在专门的训练营或在线课程中学习。
不仅仅是课程:还有两个提示
Hank Yun 是威尔康奈尔医学院肺科的研究助理,也是纽约市数据科学学院的学生,他建议有抱负的数据科学家围绕他们将从事的工作进行计划并寻找导师。 他说:
不要重蹈我的覆辙,告诉自己你了解数据科学是因为你参加了课程并获得了证书。 这是一个很好的开始,但是当您开始学习时,请牢记一个项目。 然后找到该领域的导师并立即开始一个激情项目! 当你是新鲜人时,你不知道自己不知道什么,所以当有人在那里指导你什么对你重要,什么不重要时,它会有所帮助。 你不想花很多时间学习却一事无成!
知道从工具箱中取出哪种工具:保持领先地位的技巧
鉴于数据科学工具排名的差异,有些人可能对应该关注什么感到困惑。 安全软件公司 McAfee 的首席数据科学家 Celeste Fralick 在 CIO 的一篇文章中解决了这个问题,该文章着眼于数据科学家的基本技能,宣称:“数据科学家需要在研究中保持领先地位,以及 了解何时应用何种技术。” 这意味着当实际问题需要更普通的东西时,不要被“‘性感’和新奇”所吸引。 “了解生态系统的计算成本、可解释性、延迟、带宽和其他系统边界条件——以及客户的成熟度——本身有助于数据科学家了解应用什么技术。”
基本软技能:另外六个技巧
Fralick 提出的观点与数据科学家工作所需的非技术技能有关。 这就是为什么 KDnuggets 列表包括这四项:求知欲、团队合作、沟通技巧和商业头脑。 詹还在他给数据科学家的建议中包括了关键的软技能,确定了像 KDnuggets 这样的“沟通技巧”,但使用“领域专业知识”代替“商业头脑”。 不管它叫什么,它都是指数据科学在业务中的实际应用。 (要了解有关沟通技巧的更多信息,请参阅沟通技巧对技术专业人员的重要性。)
Olivia Parr-Rud 对此提出了自己的看法,增加了两项软技能,强调创造力的作用,断言“我认为数据科学既是一门艺术,也是一门科学”,这需要借鉴 大脑两侧的优势。 “许多人将数据科学视为主要使用左脑的职业。 我发现要取得成功,数据科学家必须动用他们的整个大脑。”
她解释说,在该领域取得进步不仅需要技术能力,还需要创造力和领导力所需的远见:
大多数左脑/线性任务可以自动化或外包。 为了提供作为数据科学家的竞争优势,我们必须能够使用大脑的两侧来识别模式并综合大量信息。 我们必须是创新的思想家。 许多最好的结果来自于左右脑的整合。
她还强调了为什么清楚地传达愿景至关重要:
作为数据科学家,我们的目标是使用数据帮助我们的客户增加利润。 大多数高管不了解我们做什么或我们如何做。 因此,我们需要像领导者一样思考,并以利益相关者理解和信任的语言传达我们的发现和建议。
数据打
关键技巧包括大量的技术工具、技能和能力,以及不太可量化的品质,如创造力和领导才能。 最终,这不仅仅是一场数字游戏。 由于数据科学不仅仅是在真空中创建模型,而是提出实际应用来为企业解决现实生活中的问题,因此想要在该领域取得成功的人不仅需要掌握技术,还需要了解他们的业务领域并了解企业的需求 团队中的各个成员在工作。