用CNN做基础模型,可变形卷积InternImage实现检测分割新纪录! 近年来大规模视觉 Transformer 的蓬勃发展推动了计算机视觉领域的性能边界。视觉 Transformer 模型通过扩大模型参数量和训练数据从而击败了卷积神经网络。来自上海人工智能实验室、清华... 人工智能# 模型 3年前2440
七个阶段模型,帮助微服务架构落地! 作者丨崔皓 策划丨孙淑娟 【51CTO.com原创稿件】业务的飞速发展以及变化多端的动态组合一直推着以 IaaS、PaaS 和 SaaS 形式表现的云计算不断发展,随之微服务的实施方案也需要... 网站建设# 原创# 开发# 开发工具 3年前2440
这段视频火爆外网,谷歌把AI视频造假搞得太真太简单了 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 家人们,AI做视频这事今天又被推向了舆论的风口浪尖。 起因是有人在网上发布了这么一只小企鹅的视频: 而这个近50秒视频的诞... 人工智能# 模型 3年前2210
参数量1/50,Meta发布110亿参数模型,击败谷歌PaLM 我们可以将大型语言模型(LLMs)理解为小样本学习者,其能够通过很少的例子就能学习新任务,甚至仅通过简单的说明就能学习,其中对模型参数量和训练数据的大小进行扩展是模型拥有泛化能力的关键。LLMs 的这... 人工智能# 模型 3年前2060
Python代码自动转成其他编程语言代码 哈喽,大家好。,如果将Python代码自动转成其他编程语言,你会尝试吗?,今天给大家分享一个有意思的项目,它能将Python代码自动转成C++代码。这或许对搞算法的同学有点帮助。,该项目是 GitHu... 网站建设# c# openai# python 4年前1920
把Stable Diffusion模型塞进iPhone里,做成APP一分钟出图 在 iPhone 上运行 Stable Diffusion 到底难不难?今天我们要介绍的这篇文章,作者给出了答案:不难,而且 iPhone 还剩余 50% 的性能。 众所周知,每年苹果都会推出一款声称... 人工智能# 模型 3年前1720
爱因斯坦霉霉同框只需15秒,最新可控AI一玩停不下来,在线试玩已出 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 现在,AI绘画完全可以做到指哪打哪了! 这边哈士奇,那边牧羊犬,背景在下雪天。 啪叽!一幅画就这么完成了。 这个最新Mul... 人工智能# 模型 3年前1710
首次不依赖生成模型,一句话让AI修图! 2022 年是人工智能生成内容(AI Generated Content,AIGC)爆发的一年,其中一个热门方向就是通过文字描述(text prompt)来对图片进行编辑。已有方法通常需要依赖在大规模... 人工智能# 模型 3年前1490
Java I/O大揭秘:BIO、NIO、AIO到底有何区别? 大家好,我是小米,一个热爱技术分享的小编。今天,我要和大家聊一聊在Java中,那些让人听起来很高大上的BIO、NIO、AIO,到底有什么区别呢?让我们一起来深入探索吧!,BIO,全称为Blocking... 网站建设# bio# java# nio 3年前1390
GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新 近来,多模态大语言模型(Multimodal Large Language Model,MLLM)受到广泛关注,成为一个新兴的研究热点。,MLLM通常以大语言模型(Large Language Mod... 网站建设# language# large# mllm 3年前1240
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果 「别太迷信大模型的涌现,世界上哪儿有那么多奇迹?」斯坦福大学的研究者发现,大模型的涌现与任务的评价指标强相关,并非模型行为在特定任务和规模下的基本变化,换一些更连续、平滑的指标后,涌现现象就不那么明显... 人工智能# 模型 3年前1060
最强API调用模型来了!基于LLaMA微调,性能超过GPT-4 继羊驼之后,又来了个以动物命名的模型,这次是大猩猩(Gorilla)。 虽说目前LLM风头正旺,进展颇多,在各种任务中的性能表现也可圈可点,但这些模型通过API调用有效使用工具的潜力还亟待挖掘。 即使... 人工智能# 模型 3年前820
一文带你了解时下最新的目标检测模型——YOLOv8 译者| 朱先忠,审校 | 孙淑娟,YOLOv8是Ultralytics公司推出的基于对象检测模型的YOLO最新系列,它能够提供截至目前最先进的对象检测性能。,借助于以前的YOLO模型版本支持技术,Y... 网站建设# ultralytics# yolo# yolov 4年前820
GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群 自 GPT-4 问世以来,人们一直惊艳于它强大的涌现能力,包括出色的语言理解能力、生成能力、逻辑推理能力等等。这些能力让 GPT-4 成为机器学习领域最前沿的模型之一。然而,OpenAI 至今未公开 ... 人工智能# 模型 3年前760
两种流行AI语言模型ChatGPT与GPT3的深度比较 译者 | 朱先忠,审校 | 孙淑娟,,语言模型是自然语言处理(NLP)的重要组成部分,而自然语言处理是人工智能(AI)的一个子领域,专注于使计算机能够理解和生成人类语言。ChatGPT和GPT-3都是... 网站建设# ai# chatgpt# nlp 4年前750
你以为的推荐系统,其实只是推荐模型 构建推荐系统最大的入门难点之一是理解推荐系统如何在实际中应用。,目前,关于推荐系统的网络资料大部分关注的是推荐模型本身,而且仅限于介绍一些简单的协同过滤(Collaborative Filtering... 网站建设# 推荐# 构建# 模型 3年前740
一篇带你搞定TensorFlow Serving 架构、部署和应用 一般在练完机器学习的模型之后,需要将模型host成服务才能供使用者调用。TensorFlow的机器学习模型的部署也遵循这个方式,它会通过TensorFlow Serving的方式将模型做成服务,让使用... 网站建设# serving# tensorflow# 使用者 5年前740
Go Gin框架请求自动验证和数据绑定,看完这篇就会用了 之前做项目基本上公司是用 gRPC 和 echo 这两个框架的组合,后来 Gin 框架在Go圈越来越流行,陆续我在公司接触到的项目也开始有人用 Gin 框架开发了。,因为我也是偶尔开发,像Gin框架里... 网站建设# gin# go# 参数 4年前720
用飞桨一站式搞定大模型生产 PaddleFleetX大模型开发套件业内首发 11月30日,由深度学习技术及应用国家工程研究中心主办、百度飞桨承办的WAVE SUMMIT+2022深度学习开发者峰会如期举行。峰会上,百度AI技术生态总经理马艳军发布了飞桨深度学习平台的最新技术... 网站建设# ai# 模型# 生态 4年前710
从 CPU 说起,深入理解 Java 内存模型! Java 内存模型,许多人会错误地理解成 JVM 的内存模型。但实际上,这两者是完全不同的东西。Java 内存模型定义了 Java 语言如何与内存进行交互,具体地说是 Java 语言运行时的变量,如何... 网站建设# java# jvm# 内存 4年前700
Spring Event 玩转 DDD 领域事件 ,领域事件是领域驱动设计(Domain-Driven Design,简称DDD)中的一个重要概念,特指在领域模型中发生的有意义的事件,是对领域模型中的重要业务动作执行结果的抽象,如订单创建、支付完成等... 网站建设# ddd# 时间# 模型 5年前680
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023 近日,国际语音及信号处理领域顶级会议 ICASSP2023 在希腊成功举办。大会邀请了全球范围内各大研究机构、专家学者以及等谷歌、苹果华为、Meta AI、等知名企业近 4000 人共襄盛会,探讨技术... 人工智能# 模型 3年前670
十个常用的损失函数及Python代码实现 损失函数是一种衡量模型与数据吻合程度的算法。损失函数测量实际测量值和预测值之间差距的一种方式。损失函数的值越高预测就越错误,损失函数值越低则预测越接近真实值。对每个单独的观测(数据点)计算损失函数。将... 网站建设# 函数# 度量# 指标 4年前670
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减 预训练大语言模型(LLM)在特定任务上的性能不断提高,随之而来的是,假如 prompt 指令得当,其可以更好的泛化到更多任务,很多人将这一现象归功于训练数据和参数的增多,然而最近的趋势表明,研究者更多... 人工智能# 模型 3年前660
Java 内存模型,或许应该这么理解 今天,就树哥一起与你一起重温下这几个知识点的联系与理解吧。,网上关于 Java 内存模型的内容特别多,很多都讲到了多 CPU 与缓存的数据一致性问题,于是顺带牵出了 MESI 等缓存一致性协议。其实到... 网站建设# java# 一致性# 内存 5年前660
FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了 以 ChatGPT 为代表的大型语言模型(LLM)在各项任务上的高效表现彰显了其广阔发展前景。然而,大模型回复与人类价值偏好经常存在不一致问题。 如何让大模型更好的与人类价值观对齐,理解语言背后的含义... 人工智能# 模型 3年前650
300美元平替ChatGPT!斯坦福130亿参数「小羊驼」诞生 继Meta的LLaMA模型开源后,AI界研究人员就在这个模型基础上衍生出许多版本。 前段时间,斯坦福发布了Alpaca,是由Meta的LLaMA 7B微调而来,仅用了52k数据,性能可以与GPT-3... 人工智能# 模型 3年前650
ImageNet零样本准确率首次超过80%,地表最强开源CLIP模型更新 虽然ImageNet早已完成历史使命,但其在计算机视觉领域仍然是一个关键的数据集。 2016年,在ImageNet上训练后的分类模型,sota准确率仍然还不到80%;时至今日,仅靠大规模预训练模型的z... 人工智能# 模型 3年前640
训大模型讲究「化劲」!陶大程带队:一文打尽「高效训练」方案,别再说硬件是唯一瓶颈 深度学习领域已经取得了阶段性重大进展,特别是在计算机视觉、自然语言处理和语音等方面,使用大数据训练得到的大规模模型对于实际应用、提高工业生产力和促进社会发展具有巨大的前景。 不过大模型也需要大算力才能... 人工智能# 模型 3年前630
英伟达「一句话生成3D模型」碾压谷歌:分辨率清晰八倍,速度快两倍,编辑文本还可直接修改 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 一句话生成3D模型,英伟达也来“秀肌肉”了~ 来看它最新捣鼓出的Magic3D AI,效果是这样儿的。 输入“坐在睡莲上的... 人工智能# 模型 3年前620
五年时间被引用3.8万次,Transformer宇宙发展成了这样 自 2017 年提出至今,Transformer 模型已经在自然语言处理、计算机视觉等其他领域展现了前所未有的实力,并引发了 ChatGPT 这样的技术突破,人们也提出了各种各样基于原始模型的变体。 ... 人工智能# 模型 3年前620
万字长文说清大模型在自动驾驶领域的应用 随着ChatGPT的火爆,大模型受到的关注度越来越高,大模型展现出的能力令人惊叹。 在图片生成、推荐系统、机器翻译等领域,大模型已经开始发挥作用。给定一些提示词,图片生成网站Midjourney生成的... 人工智能# 模型 3年前610
利用大模型打造文本摘要训练新范式 1、文本任务 这篇文章主要讨论的是生成式文本摘要的方法,如何利用对比学习和大模型实现最新的生成式文本摘要训练范式。主要涉及两篇文章,一篇是BRIO: Bringing Order to Abstrac... 人工智能# 模型 3年前600
路径规划中的DRL与OR算法:对比与展望 1、什么是运筹优化 运筹学(Operations Research)作为数学、计算机科学、管理学的交叉学科,最早起源于一战中的防空作战系统,由钱学森先生引入中国,最开始的用途是优化航空/军工等领域。如... 人工智能# 模型 3年前590
大语言模型的进化树,这是一份超详细ChatGPT「食用」指南 而在实际探索的过程中,实践者可能会苦于寻找适合自己应用的 AI 模型:是选择 LLM 还是微调模型?如果用 LLM,又该选择哪一种? 近日,来自亚马逊、德州农工大学、莱斯大学等机构的学者对 ChatG... 人工智能# 模型 3年前590
零障碍合并两个模型,大型ResNet模型线性连接只需几秒,神经网络启发性新研究 深度学习能够取得如此成就,得益于其能够相对轻松地解决大规模非凸优化问题。尽管非凸优化是 NP 困难的,但一些简单的算法,通常是随机梯度下降(SGD)的变体,它们在实际拟合大型神经网络时表现出惊人的有效... 人工智能# 模型 3年前590
如何在DDD中建立领域模型 作者 | TWInsights,在前文《当我们谈论DDD时我们在谈论什么》中我们讨论了DDD的战略设计和战术设计。在本文中我们将继续探讨领域模型。,,在实际项目中,模型设计者往往过早陷入具体构... 网站建设# ddd# 关联# 我们 4年前590
Python高级架构模式的整理 ,1、残差连接是目前常用的组件,解决了大规模深度学习模型梯度消失和瓶颈问题。,通常,在10层以上的模型中追加残差连接可能有帮助。,2、标准化用于使模型看到的不同样本更相似,有助于模型的优化和泛化。,以... 网站建设# python# 教程# 架构 3年前580
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳 2020 年 12 月发布的 CPM-1 是国内首个中文大模型 ;2022 年 9 月发布的 CPM-Ant 仅微调 0.06% 参数就能超越全参数微调效果;2023 年 5 月发布的 WebCPM ... 人工智能# 模型 3年前560
达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力 纯文本大模型方兴未艾,多模态领域也开始涌现出多模态大模型工作,地表最强的 GPT-4 具备读图的多模态能力,但是迟迟未向公众开放体验,于是乎研究社区开始在这个方向上发力研究并开源。MiniGPT-4 ... 人工智能# 模型 3年前560
GPT-4等大模型自己制作工具,识别ChatGPT造假 目录: Multiscale Positive-Unlabeled Detection of AI-Generated Texts Towards Revealing the Mystery behi... 人工智能# 模型 3年前550
基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2 对于多模态基础模型,我们希望其不仅可以处理特定的多模态相关任务,还希望其处理单模态任务时也具有优异的性能。阿⾥达摩院团队发现现有的模型往往不能很好的平衡模态协作和模态纠缠的问题,这限制了模型在各种单模... 人工智能# 模型 3年前550
HuggingChat叫板ChatGPT!300亿参数大模型免费用,网友:真香 大事不妙,ChatGPT的平替真来了! 一夜醒来,最大开源社区Hugging Face发布了HuggingChat,有300亿参数。 既开源,还免费,互联网上随随便便就能用。 网址戳这里:hf.co... 人工智能# 模型 3年前550
过去三个月,LLaMA系模型发展如何?指令微调的核心问题又是什么? 符尧(yao.fu@ed.ac.uk),爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学。 ChatGPT 大火之后,在 2023 年 2 月 24 日,LL... 人工智能# 模型 3年前550
图像数据的特征工程 一提到特征工程,我们立即想到是表格数据。但是我们也可以得到图像数据的特征,提取图像中最重要的方面。这样做可以更容易地找到数据和目标变量之间的映射。,这样可以使用更少的数据和训练更小的模型。更小的模型可... 网站建设# 图象# 工程# 数据 4年前550
67个主题,11528 个问题,全新中文大模型多任务基准CMMLU发布 MBZUAI,上海交通大学,微软亚洲研究院合作完成了一个全面的中文大模型基准——CMMLU。 它涵盖了 67 个主题,涉及自然科学、社会科学、工程、人文、以及常识等,可以全面地评估大模型在中文知识储备... 人工智能# 模型 3年前540
大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?七个类ChatGPT大模型测评 大型语言模型(LLM)正在风靡全球,它们的一个重要应用就是聊天,并在问答、客服和其他许多方面都有应用。然而,聊天机器人是出了名的难以评估。究竟这些模型在什么情况下最好用,我们目前尚不明晰。因此,LLM... 人工智能# 模型 3年前540
训练个中文版ChatGPT没那么难:不用A100,开源Alpaca-LoRA+RTX 4090就能搞定 2023 年,聊天机器人领域似乎只剩下两个阵营:「OpenAI 的 ChatGPT」和「其他」。 ChatGPT 功能强大,但 OpenAI 几乎不可能将其开源。「其他」阵营表现欠佳,但不少人都在做开... 人工智能# 模型 3年前540
如何在GPU资源受限情况下微调超大模型 提问:模型大小超过GPU 容量怎么办? 本文的灵感来自于Yandex数据分析学院教授的“高效深度学习系统”课程。 预备知识:假设读者已经了解神经网络的前传递和后向传递的工作原理,这对理解本文内容至关... 人工智能# 模型 3年前540
融合系统思维和设计思维解决复杂问题(上篇) 作者 | 汪泽远&马彦青,,“设计思维”常常被认为是解决复杂问题, 突出重围并实现创新的有效手段。,世界正趋于“复杂”,问题正趋于“棘手”,这几乎是社会认知的“主旋律”。设计思维的通用性促使它... 网站建设# 复杂# 思维# 模型 4年前540
又一机器学习模型解释神器:Shapash ,模型可解释性和可理解性一直是许多研究论文和开源项目的关注的重点。并且很多项目中都配备了数据专家和训练有素的专业人员。,Shapash 适用于大多数 sklearn、lightgbm、xgboost... 网站建设# shapash# web# 应用程序 4年前540
微软官方亲自出教程,拿捏「Prompt工程」高级玩法 几个月来,ChatGPT、GPT-4 等大模型陆续发布。这些模型表现出了强大的涌现能力,但模型生成的结果是随机的,时好时坏,部分原因与 Prompt 的设计密切相关。 很多人将 Prompt 比喻为大... 人工智能# 模型 3年前530
基于重排序的新量化方法RPTQ:实现大型语言模型的 3 比特量化 大型语言模型(LLMs)在各种任务上表现出色,但由于其庞大的模型规模,部署方面存在挑战。 在这篇论文中,来自后摩智能、腾讯 AI Lab、华中科技大学、北京大学、伊利诺伊理工学院的研究人员发现量化大型... 人工智能# 模型 3年前530
顺序决策与基础模型如何交叉互惠?谷歌、伯克利等探讨更多可能 在广泛数据集上基于自监督学习的预训练基础模型,已经展现出将知识迁移到不同下游任务的优秀能力。因此,这些模型也被应用到长期推理、控制、搜索和规划等更复杂的问题,或者被部署在对话、自动驾驶、医疗保健和机器... 人工智能# 模型 3年前530
让大模型的训练和推理,比更快还更快!谷歌2022年终总结第四弹 虽然谷歌的Bard翻车了,但谷歌的AI实力仍然不容小觑。 自开年以来,由Jeff Dean领衔的Google Research年终总结系列「Google Research, 2022 & be... 人工智能# 模型 3年前530
挑战粒子物理标准模型的μ子,被最新实验结果摁回去了 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 曾被认为可能“打破标准模型”的μ子,被科学家们摁回去了。 来自欧洲LHCb团队对实验数据进行了严格复核后,承认此前的分析存... 人工智能# 模型 3年前530
如何应用数据模型? 一 前言 Vmo 是我在 18 年发布的一个工具库,用于快速创建数据模型,当时我写了一篇文章《Vmo 前端数据模型设计》得到过一段时间的关注,当时我从事三维装修相关的项目。在图形学的背景基础... 网站建设# api# 开发# 开发工具 3年前530
连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用 本文探讨了如何在工业界的连续学习的框架下实现跨域推荐模型,提出了连续迁移学习这一新的跨域推荐范式,利用连续预训练的源域模型的中间层表征结果作为目标域模型的额外知识,设计了一个轻量级的Adapter模块... 人工智能# 模型 3年前520
十种常见的回归算法总结和介绍 线性回归是机器学习中最简单的算法,它可以通过不同的方式进行训练。 在本文中,我们将介绍以下回归算法:线性回归、Robust 回归、Ridge 回归、LASSO 回归、Elastic Net、多项式回归... 网站建设# 回归# 模型# 算法 4年前520
王小川的大模型打造秘籍首次曝光:五步走,两个月炼成 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 王小川两个月交卷的大模型,是怎么炼成的? 现在,这个问题有了更为详细的解。 70亿参数、一经发布就开源可商用,百川智能的中... 人工智能# 模型 3年前510
小模型的意见也有用!GPT-4+AutoGPT在线决策:买东西再也不用纠结了 这篇论文通过对真实世界决策任务中的Auto-GPT代理进行了全面的基准研究,探索了大型语言模型(LLM)在决策任务中的应用。 论文链接:https://arxiv.org/pdf/2306.02224... 人工智能# 模型 3年前510
管提需求,大模型解决问题:图表处理神器SheetCopilot上线 这种丝滑的操作流程简直是职场人的福音! 近日,来自中科院自动化所、港理工等机构的研究者们造出了一个「表格 AI 助手」SheetCopilot,该智能体能根据用户指令生成操纵表格的解决方案并在特定软件... 人工智能# 模型 3年前510
面试必问,JVM内存模型扫盲 JVM简介 JVM(Java Virtual Machine,Java虚拟机)是Java语言的核心,是一个用于解释Java字节码的虚拟计算机。它可以在运行Java程序时自动管理内存、处理异常等。Jav... 网站建设# jvm# 内存# 前端 3年前510
二十分钟了解K8S网络模型原理 对于好多刚接触K8S,甚至是接触K8S很长时间的同学,K8S网络模型可以说是个很神秘的东西。那么对于这部分同学,恭喜你发现了本文,只要你花二十分钟的时间,就保证你能轻松掌握K8S网络模型原理。,首先... 网站建设# ks# network# stack 4年前510
DDD概念复杂难懂,实际落地如何设计代码实现模型? 今天我接着跟大家聊一聊,DDD概念复杂难懂,实际落地如何设计代码实现模型。或许你是刚看到关于这部分的内容,想着这里我有必要多说一句,关于这个话题,框架上,分为这样两部分讲的:方法篇 + 实践篇。,前一... 网站建设# ddd# 代码# 概念 5年前510
多任务学习在风控场景的应用探索及案例分享 本次分享主题是多任务学习在风控场景中的应用探索,主要探讨什么是样本选择偏差问题,如何从多任务学习的角度解决样本选择偏差问题,什么是多任务学习,多任务学习有哪些优点以及常见的解决思路。还会分享本团队在捞... 网站建设# 多任务# 学习# 模型 5年前510
全面碾压AdamW!谷歌新出优化器内存小、效率高,网友:训练GPT 2果然快 优化器即优化算法,在神经网络训练中起着关键作用。近年来,研究者引入了大量的手工优化器,其中大部分是自适应优化器。Adam 以及 Adafactor 优化器仍然占据训练神经网络的主流,尤其在语言、视觉和... 人工智能# 模型 3年前500
谷歌PaLM 2弱爆:LLM大排名屈居第六,准中文倒数第二|UC伯克利排行榜新鲜榜出炉 由UC伯克利主导的「LLM排位赛」又双叒更新了! 这次,最新榜单又迎来新的玩家,PaLM 2(也是就Bard)、Claude-instant-v1,MosaicML MPT-7B,以及Vicuna-7... 人工智能# 模型 3年前490
禁止大型语言模型胡编乱造,给点外部知识,推理靠谱的很 大型语言模型 (LLM) 已通过 In-context Learning 在各种复杂任务上展现出卓越的性能,并且无需针对特定任务进行训练或微调,近期 prompt 和解码方面取得的进展也使 LLM 解... 人工智能# 模型 3年前490
规模性能双杀OpenAI,Meta语音达LLaMA级里程碑!开源MMS模型可识别1100+语言 在语音方面,Meta又达到了另一个LLaMA级的里程碑。 今天,Meta推出了一个名为MMS的大规模多语言语音项目,它将彻底改变语音技术。 MMS支持1000多种语言,用圣经训练,错误率仅为Whisp... 人工智能# 模型 3年前480
大模型物种进化图转疯了:8位华人打造,一眼看懂“界门纲目”,原来BERT后代已绝种 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 这几天,一张名为“大语言模型进化树”的动图在学术圈疯转: 它清晰梳理了2018到2023五年间所有的大语言模型“代表作... 人工智能# 模型 3年前480
无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型 论文地址:https://ieeexplore.ieee.org/document/10089190 代码地址:https://github.com/ChangdeDu/BraVL 数据地址:htt... 人工智能# 模型 3年前480
arXiv正式规定:预印本不允许以ChatGPT等工具为作者 ChatGPT,这款近期发布的文本生成工具,已经在研究界引起了热烈的讨论。它能写出学生作文、总结研究论文、回答问题、生成可用的计算机代码,甚至足以通过医学考试、MBA 考试、司法考试…… 其中一个关键... 人工智能# 模型 3年前480
像Transformer一样思考!DeepMind发布全新模型设计工具Tracr:从可解释逻辑反向搭建模型 「可解释性」一直是深度学习难以绕过的难题,用户无法理解模型的运行机制,也就无法放心地把模型应用到实际场景中。 最近来自苏黎世联邦理工学院和DeepMind的研究人员提出了一种全新的模型构造工具Trac... 人工智能# 模型 3年前480
冒充人类作者,ChatGPT等滥用引担忧,一文综述AI生成文本检测方法 自然语言生成 (NLG) 技术的最新进展显着提高了大型语言模型生成文本的多样性、控制力和质量。一个值得注意的例子是 OpenAI 的 ChatGPT,它在回答问题、撰写电子邮件、论文和代码等任务中展示... 人工智能# 模型 3年前480
文件更小,质量更高,大火的Stable Diffusion还能压缩图像? 近来,Stable Diffusion 成为一个新兴的研究方向。一位名为 Matthias Bühlmann 的博主尝试实验探究这种模型的强大功能,结果发现 Stable Diffusion 是一个非... 人工智能# 模型 3年前480
汽车软件开发者的内功心法:V模型 做开发除了需要高效的编码能力,同样也离不开编程思维的指导。作为刚刚进入汽车电子行业的开发小白,本篇博文将总结最近学习到的汽车软件行业开发思维:V模型。,汽车软件开发过程中的V模型对行业内开发者早已是司... 网站建设# v# 开发# 开发者 3年前480
重采样技术在数据科学中的应用 译者 | 崔皓,审校 | 孙淑娟,本文介绍什么是重采样以及如何使用重采样技术提高模型的整体性能。,,在使用数据模型时,由于模型的算法不同而导致接受数据时有不同的学习模式。通过这种直观的学习方式,让模型... 网站建设# 数据# 模型# 测试数据 4年前480
ChatGPT能写长篇小说了,ETH提出RecurrentGPT实现交互式超长文本生成 如今大型语言模型(如 ChatGPT)风靡全球,其最重要的应用之一就是辅助用户完成各种日常写作,如撰写电子邮件,创作博客文章,都能得到它的有力支持。但是目前包括 ChatGPT 在内的各种大语言模型在... 人工智能# 模型 3年前470
北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94% ChatGPT发布后,自然语言处理领域的生态彻底发生了变化,很多之前无法完成的问题都可以利用ChatGPT解决。 不过也带来了一个问题:大模型的性能都太强了,光靠肉眼很难评估各个模型的差异。 比如用不... 人工智能# 模型 3年前470
斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现 随着大规模语言模型的日渐强大,人们对 AI 模型提出了伦理道德方面的更高要求。业界在模型规模扩展方面具有算力资源优势,但要想让模型更规范、可靠,需要学术界的努力。 近日,斯坦福基于 Meta 的 LL... 人工智能# 模型 3年前470
Reactive 架构才是未来 Reactive 编程模型有哪些价值?它的原理是什么?如何正确使用?本文作者将根据他学习和使用的经历,分享 Reactive 的概念、规范、价值和原理。欢迎同学们共同探讨、斧正。 Reactive 和... 网站建设# reactive# 开发# 开发工具 3年前470
预训练、微调和上下文学习 最近语言模型在自然语言理解和生成方面取得了显著进展。这些模型通过预训练、微调和上下文学习的组合来学习。在本文中将深入研究这三种主要方法,了解它们之间的差异,并探讨它们如何有助于语言模型的学习过程... 网站建设# 学习# 文本# 模型 3年前470
python超参数如何优化 ,1、手动调参,但这种方法依赖于大量的经验,而且比较费时。,许多情况下,工程师依靠试错法手工调整超参数进行优化,有经验的工程师可以在很大程度上判断如何设置超参数,从而提高模型的准确性。,2、网格化寻优... 网站建设# python# 优化# 参数 4年前470
Replication(下):事务,一致性与共识 作者:仕禄,在上一篇中,我们主要介绍了分布式系统中常见的复制模型,并描述了每一种模型的优缺点以及使用场景,同时阐述了分布式系统中特有的一些技术挑战。首先,常见的分布式系统复制模型有3种,分别是主从模型... 网站建设# 主模型# 分布式系统# 复制 4年前470
第四范式开发用于分子性质预测的生成式3D预训练模型 论文标题:Automated 3D Pre-Training for Molecular Property Prediction 论文链接:https://arxiv.org/abs/2306.078... 人工智能# 模型 3年前460
模块化MoE将成为视觉多任务学习基础模型 多任务学习(MTL)存在很多挑战,因为不同任务之间的梯度可能矛盾。为了利用任务之间的关联,作者引入了 Mod-Squad 模型,它是多个专家组成的模块化模型。模型可以灵活优化任务和专家的匹配,针对任务... 人工智能# 模型 3年前460
一键控制10万多个AI模型,HuggingFace给类ChatGPT模型们做了个「APP Store」 从聊天到编程再到支持各种插件,强大的 ChatGPT 早就不是一个简单的对话助手,而是朝着 AI 界的「管理层」不断前进。 3 月 23 号,OpenAI 宣布 ChatGPT 开始支持各类第三方插件... 人工智能# 模型 3年前460
比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤 Transformer无疑是过去几年内机器学习领域最流行的模型。 自2017年在论文「Attention is All You Need」中提出之后,这个新的网络结构,刷爆了各大翻译任务,同时创造了多... 人工智能# 模型 3年前460
Jay Alammar再发新作:超高质量图解Stable Diffusion,看完彻底搞懂「图像生成」原理 还记得火爆全网的图解Transformer吗? 最近这位大佬博主Jay Alammar在博客上对大火的Stable Diffusion模型也撰写了一篇图解,让你从零开始彻底搞懂图像生成模型的原理,还配... 人工智能# 模型 3年前460
斯坦福、微软联手,用扩散模型进行蛋白质结构生成,已开源 蛋白质对生命至关重要,几乎在每个生物过程中都发挥着作用。一方面它们能在神经元之间传递信号、识别微观入侵者并激活免疫反应等。另一方面,蛋白质作为一种治疗介质已经得到广泛研究,成为治疗疾病的一部分。因此... 人工智能# 模型 3年前460
大语言模型的 few-shot 或许会改变机器翻译的范式 ,近期 NLP 界的大语言模型 (Large LM) 引领了一波研究热潮 。有关大语言模型介绍的博文众多、此处推荐一下 Stanford 为此专门设计的一门课程(仅开源了讲义)。,Stanford C... 网站建设# large# 机器翻译# 模型 4年前460
十个用于可解释AI的Python库 XAI的目标是为模型的行为和决定提供有意义的解释,本文整理了目前能够看到的10个用于可解释AI的Python库,XAI,Explainable AI是指可以为人工智能(AI)决策过程和预测提供清晰易懂... 网站建设# ai# python# xai 5年前460
Keras可视化神经网络架构的四种方法 我们在使用卷积神经网络或递归神经网络或其他变体时,通常都希望对模型的架构可以进行可视化的查看,因为这样我们可以 在定义和训练多个模型时,比较不同的层以及它们放置的顺序对结果的影响。还有可以更好地理解模... 网站建设# keras# 可视化# 架构 5年前460
高效利用多级用户意图,港科大、北大等提出会话推荐新模型Atten-Mixer 推荐系统作为一种智能化的信息过滤技术,已在实际场景中得到广泛的应用。然而,推荐系统的成功往往建立在大量的用户数据之上,而这些数据可能涉及用户的私密和敏感信息。在用户信息受到隐私保护限制或无法获取的场景... 人工智能# 模型 3年前450
四年了,基础开源模型没有真正进步,指令调优大模型评估惊人发现 指令调优大语言模型的出现标志着 NLP 领域迎来一个重要转折点。从 ChatGPT 这类会话助手到解决复杂问题,这些指令调优大模型的变革能力在应用中瞩目。此类模型还包括 GPT-4,它的精通范围不局限... 人工智能# 模型 3年前450
视觉卷不动了,来看看分子领域?全球首个分子图像自监督学习框架ImageMol来了 分子是维持物质化学稳定性的最小单位。对分子的研究,是药学、材料学、生物学、化学等众多科学领域的基础性问题。 分子的表征学习(Molecular Representation Learning)是近年来... 人工智能# 模型 3年前450
扩散模型背后数学太难了,啃不动?谷歌用统一视角讲明白了 最近一段时间,AI 作画可谓是火的一塌糊涂。 在你惊叹 AI 绘画能力的同时,可能还不知道的是,扩散模型在其中起了大作用。就拿热门模型 OpenAI 的 DALL·E 2 来说,只需输入简单的文本(p... 人工智能# 模型 3年前450
大模型自主智能体爆火,OpenAI也在暗中观察、发力,这是内部人的分析博客 最近几个月,随着大语言模型的持续火爆,利用其构建 AI 智能体的研究陆续进入人们的视线。AI 智能体这个概念也流行开来,不断突破人们的想象力。 先是斯坦福大学、谷歌的研究者,他们成功构建了一个「虚拟小... 人工智能# 模型 3年前440
一份来自Huggingface的大模型进化指南:没有必要完全复现GPT-4 大数据文摘出品 ChatGPT爆火之后,AI界进行了一场“百模大战”。近日,Huggingface的机器学习科学家Nathan Lambert,在一篇博文中对当前入局大模型的力量,从开源视角进行了梳理... 人工智能# 模型 3年前440