2019 年,Python 数据科学该怎么学
A:技术上来说是的,不过你需要扩大知识面。机器学习通常有两个任务:回归或分类。从技术上讲,分类是回归。决策树、神经网络、支持向量机、逻辑回归以及线性回归,这些算法都在做某种形式的曲线拟合,每种算法各有优缺点。 Q:所以机器学习只是回归?它们都有效地拟合了曲线? A:差不多,像线性回归这样的一些模型清晰可解释,而像神经网络这样更先进的模型定义是复杂的,并且难以解释。神经网络实际上只是具有一些非线性函数的多层回归。当你只有 2-3 个变量时,它可能看起来不那么令人印象深刻,但是当你有数百或数千个变量时它就开始变得有趣了。 Q:那图像识别也只是回归? A:是的,,每个图像像素基本上变成具有数值的输入变量。你必须警惕维度的诅咒,变量(维度)越多,需要的数据越多,以防变得稀疏。这是机器学习如此不可靠和混乱的众多原因之一,并且需要大量你没有的标记数据。 Q:机器学习能解决安排员工、交通工具、数独所有这些问题吗? A:当你遇到这些类型的问题时,有些人会说这不是数据科学或机器学习而是运筹学。 Q:这对我来说似乎是实际问题。运营研究与数据科学无关? A:实际上,存在相当多的重叠。运筹学已经提供了许多机器学习使用的优化算法。它还为常见的 AI 问题提供了许多解决方案。 Q:那么我们用什么算法来解决这些问题呢? A:绝对不是机器学习算法,很少有人知道这一点。几十年前就有更好的算法,树搜索、元启发式、线性规划和其他运算研究方法已经使用了很长时间,并且比机器学习算法对这些类别的问题做得更好。 Q:那为什么每个人都在谈论机器学习而不是这些算法呢? A:因为很长一段时间里,这些优化算法问题已经有了令人满意的解决方案,但自那时起就一直没有成为头条新闻。几十年前就出现了这些算法的 AI 炒作周期。如今,AI 炒作重新点燃了机器学习及其解决的问题类型:图像识别、自然语言处理、图像生成等。 Q:所以使用机器学习来解决调度问题,或者像数独一样简单的事情时,这样做是错误的吗? A:差不多,机器学习,深度学习这些今天被炒作的任何东西通常都不能解决离散优化问题,至少不是很好,效果非常不理想。 Q:如果机器学习只是回归,为什么每个人都对机器人和人工智能,这么忧心忡忡,认为会危害我们的工作和社会?我的意思是拟合曲线真的那么危险吗?AI 在进行回归时有多少自我意识? A:人们已经找到了一些巧妙的回归应用,例如在给定的转弯上找到最佳的国际象棋移动(离散优化也可以做)或者计算自动驾驶汽车的转向方向。但是大多都是炒作,回归只能干这些事。 Q:好吧,我要散个步慢慢消化下。我目前的 Excel 工作感觉也算「数据科学」,但数据科学家这个名头有点虚幻。 A:也许你应该关注一下 IBM。 (编辑:衢州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |