机器学习真能产生智能决策吗?

历经三年时间,我们在2022年完成了图灵奖获得者、加州大学洛杉矶分校计算机科学教授,美国国家科学院院士,被誉为“贝叶斯网络之父”的朱迪亚·珀尔大作《因果论:模型、推理和推断》。 这本书原版的第1版写于...
2年前
420

机器学习用于安全是美丽的谎言?

译者 | 布加迪 审校 | 孙淑娟 机器学习(ML)并不是神奇的技术。通常来说,ML适合在拥有庞大数据集的情况下解决范围狭窄的问题,受关注的模式具有高度可重复性或可预测性。大多数安全问题不需要ML,也...
2年前
50

使用Scikit-lwarn的Imputer

​译者 | 布加迪 审校 | 孙淑娟 Imputer 如果您的数据集中有一些缺失值,您可能会删除缺失值行甚至列。强烈建议不使用这种方法,因为这会减少数据的大小,而且数据分析可能偏离事实。相反,我们应该...
2年前
310

使用机器学习评估异质治疗效果

​译者 | 朱先忠 审校 | 孙淑娟 引言 在许多情况下,我们不仅对估计因果效应感兴趣,而且对不同用户的这种效应是否不同也感兴趣。我们可能有兴趣了解一种药物是否对不同年龄的人有不同的副作用。或者,我们...
2年前
710

生成式AI应用的五大优势

生成式AI是指使用AI和机器学习算法使机器能够创建新的数字视频、图像、文本、音频或代码的技术。生成式AI由算法驱动,这些算法具有识别输入的底层模式、生成类似输出并提供高质量内容的潜力。一种更升级的生成...
2年前
390

机器学习必知必会十大算法!

1.线性回归 线性回归(Linear Regression)可能是最流行的机器学习算法。线性回归就是要找一条直线,并且让这条直线尽可能地拟合散点图中的数据点。它试图通过将直线方程与该数据拟合来表示自变...
2年前
320

图解最常用的十大机器学习算法!

在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。 举个例子来说,你不能说神经网络永远比决策树好...
2年前
490

人工智能如何诠释“眼睛是心灵之窗”

​利用机器学习开发的软件可以通过分析某人眼睛中的静脉和动脉,在不到一分钟的时间内预测某人患心脏病的风险。 这项新研究发表在《英国眼科学杂志》上。如果这项发现在未来的临床试验中得到验证,将为快速、廉价的...
2年前
310

基于迁移学习的图像分类概述

预训练网络通常是在大量数据集上进行训练的大型深度神经网络,迁移学习的优势在于预训练网络已经学会识别数据中的大量模式。这使得学习新任务更快更容易,因为网络已经做了很多基础工作。 迁移学习的缺点是预训练过...
2年前
130

12个常用的图像数据增强技术总结

机器学习或深度学习模型的训练的目标是成为“通用”模型。这就需要模型没有过度拟合训练数据集,或者换句话说,我们的模型对看不见的数据有很好的了解。数据增强也是避免过度拟合的众多方法之一。 扩展用于训练模型...
2年前
270

基于TensorFlow和QuestDB的时间序列预测

​译者 | 朱先忠 审校 | 孙淑娟 时间序列预测的机器学习概述​ 当前,机器学习正在席卷全球,机器人能够以类似人类的精度完成许多领域中的任务。例如,在医疗领域,智能助手可以随时检查人们的健康状况;在...
2年前
310

机器学习如何防止列车延误

使用机器学习可以帮助预测列车延误,检测故障的早期迹象,并根据需求变化规划路线,可以在长期和短期内通过减少列车延误和确保高服务质量来改善铁路旅行。 晚点的列车影响着全世界数百万人,而运营商几乎不能做什么...
2年前
310

机器学习必备:如何防止过拟合?

其实正则化的本质很简单,就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。在算法中使用正则化的目的是防止模型出现过拟合。一提到正则化,很多同学可能马上会想到常用的L1范数和L2范数...
2年前
240

十个机器学习中常用的距离度量方法

距离度量是有监督和无监督学习算法的基础,包括k近邻、支持向量机和k均值聚类等。 距离度量的选择影响我们的机器学习结果,因此考虑哪种度量最适合这个问题是很重要的。因此,我们在决定使用哪种测量方法时应该谨...
2年前
180

从机器学习中受益最大的四个行业

机器学习是人工智能的一个分支,具有最大的未来潜力并为行业带来最大的利益。据相关报告显示,到2025年,机器学习市场规模将达到967亿美元。与2018年的68亿美元相比,这将是一个巨大的增长。 在未来几...
2年前
350

将特征转换为正态分布的一种方法示例

正态(高斯)分布在机器学习中起着核心作用,线性回归模型中要假设随机误差等方差并且服从正态分布,如果变量服从正态分布,那么更容易建立理论结果。 统计学领域的很大一部分研究都是假设数据是正态分布的,所以如...
2年前
150

机器学习如何彻底改变农业

在过去几年里,机器学习与其他大数据技术和先进计算一起发展,改变了世界各地的行业,农业也不例外。 随着机器学习的进步,农业中的机器学习已经能够解决该行业遇到的许多问题。 企业只有在决策上不断超越竞争对手...
2年前
160

利用机器学习发起攻击的九种方式

机器学习和人工智能(AI)正成为一些威胁检测与响应工具的核心技术。其即时学习和自动适应网络威胁动态的能力令安全团队如虎添翼。 然而,一些恶意黑客也会利用机器学习和AI扩大其网络攻击,规避安全控制措施...
2年前
90

用机器学习解决非结构化数据问题

​译者 | 布加迪 审校 | 孙淑娟 数据革命如火如荼。未来五年内创建的数字数据总量将是迄今生成的数据总量的两倍,非结构化数据将定义这个倡导数字体验的新时代。 非结构化数据指不遵循传统模型或不适合结构...
2年前
300

浅析细胞图像数据的主动学习

通过细胞图像的标签对模型性能的影响,为数据设置优先级和权重。 许多机器学习任务的主要障碍之一是缺乏标记数据。而标记数据可能会耗费很长的时间,并且很昂贵,因此很多时候尝试使用机器学习方法来解决问题是不合...
2年前
110

PathAI利用机器学习推动药物开发

​译者 | 朱先忠 审校 | 孙淑娟 位于美国波士顿的病理人工智能技术公司PathAI是病理学(疾病研究)人工智能技术工具和服务的领先供应商。他们开发的平台旨在利用机器学习中的现代方法,如图像分割、图...
2年前
420

机器学习:73%的企业迷途求生

大家都知道,机器学习(ML)是人工智能的关键技术之一,也是一项逐渐走向成熟的应用技术。具体说来,这一技术可以为未来的数据科学带来变革,能够让应用企业作出基于更多数据分析的驱动决策,从而改善用户的业务体...
2年前
370

终于有人把分布式机器学习讲明白了

​分布式机器学习也称分布式学习,是指利用多个计算节点(也称工作节点,Worker)进行机器学习或者深度学习的算法和系统,旨在提高性能、保护隐私,并可扩展至更大规模的训练数据和更大的模型。 联邦学习可以...
2年前
300

机器学习理论基础到底有多可靠?

机器学习领域中,有些模型非常有效,但我们并不能完全确定其原因。相反,一些相对容易理解的研究领域则在实践中适用性有限。本文基于机器学习的效用和理论理解,探讨各个子领域的进展。 这里的实验效用是一种综合考...
2年前
350

Pytorch创建多任务学习模型

MTL最著名的例子可能是特斯拉的自动驾驶系统。在自动驾驶中需要同时处理大量任务,如物体检测、深度估计、3D重建、视频分析、跟踪等,你可能认为需要10个以上的深度学习模型,但事实并非如此。 HydraN...
2年前
580

机器学习中的集成方法概述

​想象一下,你正在网上购物,你发现有两家店铺销售同一种商品,它们的评分相同。然而,第一家只有一个人的评分,第二家有 100 人评分。您会更信任哪个评分呢?最终您会选择购买哪家的商品呢?大多数人的答案很...
2年前
280

使用可视化工具和统计方法检测异常值

异常值(离群值)是指距离其他数据值太远的数据值。数据异常值可能是自然产生的,也可能是由于测量不准确、或系统故障造成的。与缺失值类似,异常值会破坏数据科学项目并返回错误的结果或预测。异常值也可能出现在倾...
2年前
240

机器学习超参调优:常用八种方法

机器学习算法需要用户定义的输入来实现准确性和通用性之间的平衡。这个过程称为超参数调整。有多种工具和方法可用于调整超参数。 我们整理了一份用于调整机器学习模型超参数的前八种方法的列表。 1.贝叶斯优化 ...
2年前
320

机器学习中必学的四种交叉验证技术

​介绍 考虑在数据集上创建模型,但它在看不见的数据上失败。我们不能简单地将模型拟合到我们的训练数据中,然后坐等它在真实的、看不见的数据上完美运行。 这是一个过度拟合的例子,我们的模型已经提取了训练数据...
2年前
150

数据科学家必须了解的六大聚类算法

目前如谷歌新闻等很多应用都将聚类算法作为主要的实现手段,它们能利用大量的未标注数据构建强大的主题聚类。本文从最基础的 K 均值聚类到基于密度的强大方法介绍了 6 类主流方法,它们各有擅长领域与情景,且...
2年前
110

合成数据:机器学习的未来

​译者 | 布加迪 审校 | 孙淑娟 数据可谓是机器学习模型的命脉。但是当这种宝贵资源的访问受到限制时会发生什么?正如许多项目和公司开始展现的那样,这时候合成数据就算不是一种出色的选择,也是一种可行的...
2年前
100

机器学习:不要低估树模型的威力

​由于神经网络的复杂性,它们常常被认为是解决所有机器学习问题的「圣杯」。而另一方面,基于树的方法并未得到同等重视,主要原因在于这类算法看起来很简单。然而,这两种算法看似不同,却像一枚硬币的正反面,都很...
2年前
90