加入收藏 | 设为首页 | 会员中心 | 我要投稿 衢州站长网 (https://www.0570zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动 > 正文

2019 年,Python 数据科学该怎么学

发布时间:2019-03-22 16:40:52 所属栏目:移动 来源:Thomas Nield
导读:副标题#e# 去年我决定从传统水利行业跨行到 Python 领域的时候,满脑子都是困惑与担心,犹豫放弃所学多年的专业知识值不值得,担心万一转行失败怎么办,纠结实际工作比想象中的难怎么办。 没遇到指点迷津的大佬,只好网上各种搜,众说纷纭,最后在「要不要

A:数据科学家分为两个职业。数据工程师为模型提供可用的数据,机器学习和数学建模涉及比较少,这些工作主要由数据科学家来做。如果你想成为一名数据工程师,建议优先考虑学习 Apache Kafka 而不是 NoSQL,Apache Kafka 现在非常热门。

如果想成为「数据科学家」,可以看看这张数据科学维恩图。简单来说,数据工程师是一个多领域交叉的岗位,你需要懂数学/统计学、编程以及你专业方面的知识。

Q:好吧,我不知道我现在是想成为数据科学家还是数据工程师。回过头来,为什么要抓维基百科页面呢?

A:抓取下来的页面数据,可以作为自然语言处理的输入数据,之后就可以做一些事情,如创建聊天机器人。

Q:我暂时应该不用接触自然语言处理、聊天机器人、非结构化文本数据这些吧?

A:不用但值得关注,像 Google 和 Facebook 这些大公司,目前在处理大量非结构化数据(如社交媒体帖子和新闻文章)。除了这些科技巨头,大部分人仍然在使用关系数据库形式的业务运营数据,使用着不是那么前沿的技术,比如 SQL。

Q:是的,我猜他们还在做挖掘用户帖子、电子邮件以及广告之类的事情。

A:是的,你会发现 Naive Bayes 有趣也很有用。获取文本正文并预测它所属的类别。先跳过这块,你目前的工作是处理大量表格数据,是想做一些预测或统计分析么?

Q:对的,我们终于回到正题上了,就是解决实际问题,这是神经网络和深度学习的用武之地吗?

A:不要着急,如果想学这些,建议从基础开始,比如正态分布、线性回归等。

Q:明白,但这些我仍然可以在 Excel 中完成,有什么区别?

A:你可以在 Excel中 做很多事情,但编程可以获得更大的灵活性。

Q:你说的编程是像 VBA 这样的么?

A:看来我需要从头说了。Excel 确实有很好的统计运算符和不错的线性回归模型。但如果你需要对每个类别的项目进行单独的正态分布或回归,那么使用 Python 要容易得多,而不是创建一长串的公式,比如下面这样,这会让看公式的人无比痛苦。除此之外,Python 还有功能强大的 scikit-learn 库,可以处理更多的回归和机器学习模型。

2019 年,Python 数据科学该怎么学

Q:这需要涉及到数学建模领域是吧,我需要学习哪些数学知识?

A:从线性代数开始吧,它是许多数据科学的基础。你会处理各种矩阵运算、行列式、特征向量这些概念。不得不说,线性代数很抽象,如果你想要得到线性代数的直观解释,3Blue1Brown 是最棒的。

Q:就是作大量的线性代数运算?这听起来毫无意义和无聊,能举个例子么?

A:好吧,机器学习中会用到大量的线性代数知识,比如:线性回归或构建自己的神经网络时,会使用随机权重值进行大量矩阵乘法和缩放。

Q:好吧,矩阵与 DataFrame 有什么关系?感觉很相似。

A:实际上,我需要收回刚才说的话,你可以不用线性代数。

Q:真的吗?那我还要不要学习线性代数?

A:就目前而言,你可能不需要学习线性代数,直接使用机器学习库就行,比如 TensorFlow 和 scikit-learn 这些库,它们会帮助你自动完成线性代数部分的工作。不过你需要对这些库的工作原理有所了解。

Q:说到机器学习,线性回归真的算是机器学习吗?

A:是的,线性回归是机器学习的敲门砖。

Q:真棒,我一直在 Excel 中这样做,那我是不是也可以自称「机器学习从业者」?

(编辑:衢州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读