2019 年，Python 数据科学该怎么学

发布时间：2019-03-22 16:40:52 所属栏目：移动来源：Thomas Nield

导读：副标题#e# 去年我决定从传统水利行业跨行到 Python 领域的时候，满脑子都是困惑与担心，犹豫放弃所学多年的专业知识值不值得，担心万一转行失败怎么办，纠结实际工作比想象中的难怎么办。没遇到指点迷津的大佬，只好网上各种搜，众说纷纭，最后在「要不要

A：技术上来说是的，不过你需要扩大知识面。机器学习通常有两个任务：回归或分类。从技术上讲，分类是回归。决策树、神经网络、支持向量机、逻辑回归以及线性回归，这些算法都在做某种形式的曲线拟合，每种算法各有优缺点。

Q：所以机器学习只是回归?它们都有效地拟合了曲线?

A：差不多，像线性回归这样的一些模型清晰可解释，而像神经网络这样更先进的模型定义是复杂的，并且难以解释。神经网络实际上只是具有一些非线性函数的多层回归。当你只有 2-3 个变量时，它可能看起来不那么令人印象深刻，但是当你有数百或数千个变量时它就开始变得有趣了。

Q：那图像识别也只是回归?

A：是的，，每个图像像素基本上变成具有数值的输入变量。你必须警惕维度的诅咒，变量(维度)越多，需要的数据越多，以防变得稀疏。这是机器学习如此不可靠和混乱的众多原因之一，并且需要大量你没有的标记数据。

Q：机器学习能解决安排员工、交通工具、数独所有这些问题吗?

A：当你遇到这些类型的问题时，有些人会说这不是数据科学或机器学习而是运筹学。

Q：这对我来说似乎是实际问题。运营研究与数据科学无关?

A：实际上，存在相当多的重叠。运筹学已经提供了许多机器学习使用的优化算法。它还为常见的 AI 问题提供了许多解决方案。

Q：那么我们用什么算法来解决这些问题呢?

A：绝对不是机器学习算法，很少有人知道这一点。几十年前就有更好的算法，树搜索、元启发式、线性规划和其他运算研究方法已经使用了很长时间，并且比机器学习算法对这些类别的问题做得更好。

Q：那为什么每个人都在谈论机器学习而不是这些算法呢?

A：因为很长一段时间里，这些优化算法问题已经有了令人满意的解决方案，但自那时起就一直没有成为头条新闻。几十年前就出现了这些算法的 AI 炒作周期。如今，AI 炒作重新点燃了机器学习及其解决的问题类型：图像识别、自然语言处理、图像生成等。

Q：所以使用机器学习来解决调度问题，或者像数独一样简单的事情时，这样做是错误的吗?

A：差不多，机器学习，深度学习这些今天被炒作的任何东西通常都不能解决离散优化问题，至少不是很好，效果非常不理想。

Q：如果机器学习只是回归，为什么每个人都对机器人和人工智能，这么忧心忡忡，认为会危害我们的工作和社会?我的意思是拟合曲线真的那么危险吗?AI 在进行回归时有多少自我意识?

A：人们已经找到了一些巧妙的回归应用，例如在给定的转弯上找到最佳的国际象棋移动(离散优化也可以做)或者计算自动驾驶汽车的转向方向。但是大多都是炒作，回归只能干这些事。

Q：好吧，我要散个步慢慢消化下。我目前的 Excel 工作感觉也算「数据科学」，但数据科学家这个名头有点虚幻。

A：也许你应该关注一下 IBM。

（编辑：衢州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!