用BT下载的方式在家跑千亿大模型,推理/微调速度10倍提升 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 在家用消费级GPU就能跑1760亿参数大模型,推理微调都很快。 还是用BT下载的方式实现。 这事儿可把AI爱好者们新鲜坏了... 人工智能# 模型 2年前310
一块GPU跑ChatGPT体量模型,AI绘图又一神器ControlNet 目录 Transformer models: an introduction and catalog High-throughout Generative Inference of Large Lan... 人工智能# 模型 2年前390
「多模态LLM」最新介绍!数据、论文集直接打包带走 进展跟踪链接(Awesome-MLLM,实时更新):https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models 近年来,大型... 人工智能# 模型 2年前360
650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了 在大模型方向上,科技巨头在训更大的模型,学界则在想办法搞优化。最近,优化算力的方法又上升到了新的高度。 大型语言模型(LLM)彻底改变了自然语言处理(NLP)领域,展示了涌现、顿悟等非凡能力。然而,若... 人工智能# 模型 2年前100
证件照转数字人只需几秒钟,微软实现首个3D扩散模型高质量生成效果,换装改形象一句话搞定 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 一张2D证件照,几秒钟就能设计出3D游戏化身! 这是扩散模型在3D领域的最新成果。例如,只需一张法国雕塑家罗丹的旧照,就能... 人工智能# 模型 2年前260
CV开启大模型时代!谷歌发布史上最大ViT:220亿参数,视觉感知力直逼人类 Transformer无疑是促进自然语言处理领域繁荣的最大功臣,也是GPT-4等大规模语言模型的基础架构。 不过相比语言模型动辄成千上万亿的参数量,计算机视觉领域吃到Transformer的红利就没那... 人工智能# 模型 2年前220
放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师 训练大型语言模型的最后一步就是「对齐」(alignment),以确保模型的行为符合既定的人类社会价值观。 相比人类通过「社交互动」获得价值判断共识,当下语言模型更多的是孤立地从训练语料库中学习价值观... 人工智能# 模型 2年前320
逆转特征让re-id模型从88.54%到0.15% 这篇文章初版2018年5月就写好了,最近2022年12月才中。四年中得到了老板们的很多支持和理解。 (这段经历也希望给在投稿的同学们一点鼓舞,paper写好肯定能中的,不要轻易放弃!) arXiv早期... 人工智能# 模型 2年前270
比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤 Transformer无疑是过去几年内机器学习领域最流行的模型。 自2017年在论文「Attention is All You Need」中提出之后,这个新的网络结构,刷爆了各大翻译任务,同时创造了多... 人工智能# 模型 2年前430
UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5 最近,来自LMSYS Org(UC伯克利主导)的研究人员又搞了个大新闻——大语言模型版排位赛! 顾名思义,「LLM排位赛」就是让一群大语言模型随机进行battle,并根据它们的Elo得分进行排名。 然... 人工智能# 模型 2年前380
精通ChatGPT等大模型,掌握最前沿技术,这有份绝佳资源 最近几个月,要问 AI 界最出圈的模型有哪些,首当其冲应该是 OpenAI 相继发布的 ChatGPT、GPT-4 等模型,这些智能模型极大地改变了人类思考和处理问题的方式,进而可能重塑当今世界。 但... 人工智能# 模型 2年前110
微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务 在 NLP 领域,大型语言模型(LLM)已经成功地在各种自然语言任务中充当通用接口。只要我们能够将输入和输出转换为文本,就能使得基于 LLM 的接口适应一个任务。举例而言,摘要任务输入文档,输出摘要信... 人工智能# 模型 2年前290
阿里版ChatGPT突然上线邀测!大模型热战正剧开始,这是第一手体验实录 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 阿里正式加入ChatGPT战局! 就在刚刚,阿里版类ChatGPT突然官宣正式对外开放企业邀测。 它叫通义千问,由达摩院开... 人工智能# 模型 2年前210
连百年梗图都整明白了!微软多模态「宇宙」搞定IQ测试,仅16亿参数 大模型的卷,已经不睡觉都赶不上进度了...... 这不,微软亚研院刚刚发布了一个多模态大型语言模型(MLLM)—— KOSMOS-1。 论文地址:https://arxiv.org/pdf/2302... 人工智能# 模型 2年前340
Stable Diffusion背后公司开源大语言模型,很火,但很烂 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 万万没想到,以文生图著名的Stable Diffusion,也入局了大语言模型(LLM)之战。 它背后的公司Stabili... 人工智能# 模型 2年前140
将330亿参数大模型「塞进」单个消费级GPU,加速15%、性能不减 预训练大语言模型(LLM)在特定任务上的性能不断提高,随之而来的是,假如 prompt 指令得当,其可以更好的泛化到更多任务,很多人将这一现象归功于训练数据和参数的增多,然而最近的趋势表明,研究者更多... 人工智能# 模型 2年前630
「ChatGPT幻觉」变废为宝!灵感生成器DreamGPT开源:见识一下真正的脑洞大开 ChatGPT最为人诟病的缺陷就是「胡编乱造」了,可以一本正经地讲一段林黛玉倒拔垂杨柳的故事。 对于真正想了解「林黛玉」或「倒拔垂杨柳」的人来说,这段回答可以说是灾难级误导了,但对于专注于「虚构」和... 人工智能# 模型 2年前110
24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」 2 月底,Meta 开源了一个大模型系列 LLaMA(直译为羊驼),参数量从 70 亿到 650 亿不等,被称为 Meta 版 ChatGPT 的雏形。之后斯坦福大学、加州大学伯克利分校等机构纷纷在 ... 人工智能# 模型 2年前190
如何应对生成式大模型「双刃剑」?之江实验室发布《生成式大模型安全与隐私白皮书》 当前,生成式大模型已经为学术研究甚至是社会生活带来了深刻的变革,以 ChatGPT 为代表,生成式大模型的能力已经显示了迈向通用人工智能的可能性。但同时,研究者们也开始意识到 ChatGPT 等生成式... 人工智能# 模型 2年前120
GPT-4发布后,其他大模型怎么办?Yann LeCun:增强语言模型或许是条路 ChatGPT、GPT-4 的火爆,让大型语言模型迎来了迄今为止的高光时刻。但下一步又该往何处去? Yann LeCun 最近参与的一项研究指出,增强语言模型或许是个极具潜力的方向。 这是一篇综述文章... 人工智能# 模型 2年前370
首个二值量化评测基准来了,北航/NTU/ETH联合提出,论文登ICML 2023 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 二值量化可以有效节约AI模型消耗的资源。 具体而言,它可以把32位浮点数值压缩到1位,大大降低了存储和运算成本。 然而,此... 人工智能# 模型 2年前410
Jay Alammar再发新作:超高质量图解Stable Diffusion,看完彻底搞懂「图像生成」原理 还记得火爆全网的图解Transformer吗? 最近这位大佬博主Jay Alammar在博客上对大火的Stable Diffusion模型也撰写了一篇图解,让你从零开始彻底搞懂图像生成模型的原理,还配... 人工智能# 模型 2年前450
模块化大模型来了!IBM公开WastonX核心架构技术细节 大型语言模型(LLMs)的性能非常强大,但是现有的模型训练和部署成本都很高。而且在不忘记先前知识的前提,扩展它们去学习新的知识也很困难。也很难针对特定的任务去提取出轻量化的模型。 最近,来自MIT-I... 人工智能# 模型 2年前70
全方位分析大模型参数高效微调,清华研究登Nature子刊 近年来,清华大学计算机系孙茂松团队深入探索语言大模型参数高效微调方法的机理与特性,与校内其他相关团队合作完成的研究成果 “面向大规模预训练语言模型的参数高效微调”(Parameter-efficien... 人工智能# 模型 2年前70
GAN的反击:朱俊彦CVPR新作GigaGAN,出图速度秒杀Stable Diffusion 图像生成是当前 AIGC 领域最热门的方向之一。近期发布的图像生成模型如 DALL・E 2、Imagen、Stable Diffusion 等等,开创了图像生成的新时代,实现了前所未有的图像质量和模型... 人工智能# 模型 2年前210
华人科学团队推出「思维链集」,全面测评大模型复杂推理能力 大模型能力涌现,参数规模越大越好? 然而,越来越多的研究人员声称,小于10B的模型也可以实现与GPT-3.5相当的性能。 真是如此吗? OpenAI发布GPT-4的博客中,曾提到: 在随意的交谈中,G... 人工智能# 模型 2年前320
达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力 纯文本大模型方兴未艾,多模态领域也开始涌现出多模态大模型工作,地表最强的 GPT-4 具备读图的多模态能力,但是迟迟未向公众开放体验,于是乎研究社区开始在这个方向上发力研究并开源。MiniGPT-4 ... 人工智能# 模型 2年前540
连GPT-4都考不及格,17个大模型悉数落败,因果推理太难了 自 ChatGPT 发布以来,大模型的涌现能力一直被人们称赞,包括强大的语言理解能力、生成能力、逻辑推理能力等。然而,最近一项研究表明,大模型在因果推理方面普遍性能很差,连 GPT-4 都不及格。 这... 人工智能# 模型 2年前250
用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPT 文本到图像生成领域近两年取得了很大的突破,从 GAN 到 Stable Diffusion,图像生成的速度越来越快,生成效果越来越好。然而,AI 模型生成的图像在细节上还有很多瑕疵,并且使用自然语言指... 人工智能# 模型 2年前270
开发者笑疯了! LLaMa惊天泄露引爆ChatGPT平替狂潮,开源LLM领域变天 谁能想到,一次意外的LLaMA泄漏,竟点燃了开源LLM领域最大的创新火花。 一系列表现出色的ChatGPT开源替代品——「羊驼家族」,随后眼花缭乱地登场。 开源和基于 API 的分发之间的摩擦,是生成... 人工智能# 模型 2年前190
过去三个月,LLaMA系模型发展如何?指令微调的核心问题又是什么? 符尧(yao.fu@ed.ac.uk),爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学。 ChatGPT 大火之后,在 2023 年 2 月 24 日,LL... 人工智能# 模型 2年前520
顶会是否应该降低接收门槛?用博弈论探索最优审稿和决策机制 近年来,人工智能领域对于大型计算机会议审稿机制的诟病与日俱增,这一切背后的矛盾源于论文作者、会议主办方和审稿人三方并不一致的利益: 论文作者希望他们的论文被会议接收; 会议主办方希望接收更多的优质论文... 人工智能# 模型 2年前390
11分钟训完GPT-3!英伟达H100 横扫MLPerf 8项基准测试,下一代显卡25年发布 最新MLPerf训练基准测试中,H100 GPU在所有的八项测试中都创下了新纪录! 如今,NVIDIA H100几乎已经统治了所有类别,并且是新LLM基准测试中使用的唯一 的GPU。 图片 3,584... 人工智能# 模型 2年前220
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下 据悉 GPT-4 将于本周发布,多模态将成为其一大亮点。当前的大语言模型正在成为理解各种模态的通用接口,能够根据不同模态信息来给出回复文本,但大语言模型生成的内容也仅仅局限于文本。另一方面,当前的扩散... 人工智能# 模型 2年前170
OpenAI文本生成3D模型再升级,数秒完成建模,比Point·E更好用 生成式 AI 大模型是 OpenAI 发力的重点,目前已经推出过文本生成图像模型 DALL-E 和 DALL-E 2,以及今年初基于文本生成 3D 模型的 POINT-E。 近日,OpenAI 研究团... 人工智能# 模型 2年前280
首次:微软用GPT-4做大模型指令微调,新任务零样本性能再提升 我们知道,从谷歌 T5 模型到 OpenAI GPT 系列大模型,大语言模型(LLMs)已经展现出了令人印象深刻的泛化能力,比如上下文学习和思维链推理。同时为了使得 LLMs 遵循自然语言指令和完成真... 人工智能# 模型 2年前240
LeCun转赞:在苹果M1/M2芯片上跑LLaMA!130亿参数模型仅需4GB内存 前不久,Meta前脚发布完开源大语言模型LLaMA,后脚就被网友放出了无门槛下载链接,「惨遭」开放。 消息一出,圈内瞬间就热闹了起来,大家纷纷开始下载测试。 但那些手头没有顶级显卡的朋友们,就只能望模... 人工智能# 模型 2年前100
20+篇里程碑式论文,带你从「Transformer的前世」速通到ChatGPT 短短五年,Transformer就几乎颠覆了整个自然语言处理领域的研究范式,是划时代产品ChatGPT的基础技术,也促进了计算机视觉、计算生物学等领域的研究进展。 在发展的过程中,研究人员发表了大量论... 人工智能# 模型 2年前390
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023 近日,国际语音及信号处理领域顶级会议 ICASSP2023 在希腊成功举办。大会邀请了全球范围内各大研究机构、专家学者以及等谷歌、苹果华为、Meta AI、等知名企业近 4000 人共襄盛会,探讨技术... 人工智能# 模型 2年前640
MiniGPT-4看图聊天、还能草图建网站;视频版Stable Diffusion来了 目录 Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models MiniGPT-4:Enhan... 人工智能# 模型 2年前300
初探AI拼图模型预测蛋白质复合物结构 分子表示学习在 AI 辅助药物发现研究中起着至关重要的作用。在传统药物研发中,常用的分子对接模型需要进行大量的构型采样与优化,并筛选出较为稳定的结构。这类策略效率较低,难以应用于高通量的蛋白质对接任务... 人工智能# 模型 2年前300
LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理 随着 ChatGPT 的出现,大规模语言模型(LLM)研究及其应用得到学术界和工业界的广泛关注。一方面,开源的 LLM 模型不断涌现,比如 OPT、BLOOM、LLaMA 等,这些预训练模型的推出极大... 人工智能# 模型 2年前240
稀疏模型最新进展!马毅+LeCun强强联手:「白盒」非监督式学习 最近马毅教授和图灵奖得主Yann LeCun联手在ICLR 2023上发表了一篇论文,描述了一种极简和可解释的非监督式学习方法,不需要求助于数据增强、超参数调整或其他工程设计,就可以实现接近 SOTA... 人工智能# 模型 2年前180
万字长文说清大模型在自动驾驶领域的应用 随着ChatGPT的火爆,大模型受到的关注度越来越高,大模型展现出的能力令人惊叹。 在图片生成、推荐系统、机器翻译等领域,大模型已经开始发挥作用。给定一些提示词,图片生成网站Midjourney生成的... 人工智能# 模型 2年前580
全面了解大语言模型,这有一份阅读清单 大型语言模型已经引起了公众的注意,短短五年内,Transforme等模型几乎完全改变了自然语言处理领域。此外,它们还开始在计算机视觉和计算生物学等领域引发革命。 鉴于Transformers对每个人的... 人工智能# 模型 2年前360
一个模型解决两种模态,谷歌AudioPaLM一统「文本+音频」:能说还能听的大模型 大型语言模型以其强大的性能及通用性,带动了一批多模态的大模型开发,如音频、视频等。 语言模型的底层架构大多是基于Transformer,且以解码器为主,所以无需过多调整模型架构即可适应其他序列模态。 ... 人工智能# 模型 2年前330
北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94% ChatGPT发布后,自然语言处理领域的生态彻底发生了变化,很多之前无法完成的问题都可以利用ChatGPT解决。 不过也带来了一个问题:大模型的性能都太强了,光靠肉眼很难评估各个模型的差异。 比如用不... 人工智能# 模型 2年前450
清华系千亿基座对话模型ChatGLM启动内测,开源单卡版模型 ChatGPT 的发布,搅动了整个 AI 领域,各大科技公司、创业公司以及高校团队都在跟进。近段时间,机器之心报道了多家创业公司、高校团队的研究成果。 昨日,又一国产 AI 对话大模型重磅登场:由清华... 人工智能# 模型 2年前120
一键生成山川、河流,风格多样,从2D图像中学习生成无限3D场景 项目主页:https://scene-dreamer.github.io/ 代码:https://github.com/FrozenBurning/SceneDreamer 论文:https://ar... 人工智能# 模型 2年前130
成本不到100美元!UC伯克利再开源类ChatGPT模型「考拉」:数据量大没有用,高质量才是王道 自从Meta开源LLaMA之后,学术界内各种类ChatGPT模型如雨后春笋般开始发布。先是斯坦福提出了70亿参数Alpaca,紧接着又是UC伯克利联手CMU、斯坦福、UCSD和MBZUAI发布的130... 人工智能# 模型 2年前260
羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了 前段时间,谷歌的一份泄密文件引发了广泛关注。在这份文件中,一位谷歌内部的研究人员表达了一个重要观点:谷歌没有护城河,OpenAI 也没有。 这位研究人员表示,虽然表面看起来 OpenAI 和谷歌在 A... 人工智能# 模型 2年前410
无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型 论文地址:https://ieeexplore.ieee.org/document/10089190 代码地址:https://github.com/ChangdeDu/BraVL 数据地址:htt... 人工智能# 模型 2年前450
无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型 OpenAI的ChatGPT能够理解各种各样的人类指令,并在不同的语言任务中表现出色。这归功于一种新颖的大规模语言模型微调方法——RLHF(通过强化学习对齐人类反馈)。 RLHF方法解锁了语言模型遵循... 人工智能# 模型 2年前170
人手AutoGPT!让ChatGPT自选10万+AI模型,HuggingFace官方出品 前段时间,浙大微软团队提出的HuggingGPT在整个科技圈爆火。 这个大模型协作系统利用ChatGPT作为控制器,随意调用HuggingFace中的各种模型,以实现多模态任务。 让ChatGPT当... 人工智能# 模型 2年前350
斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现 随着大规模语言模型的日渐强大,人们对 AI 模型提出了伦理道德方面的更高要求。业界在模型规模扩展方面具有算力资源优势,但要想让模型更规范、可靠,需要学术界的努力。 近日,斯坦福基于 Meta 的 LL... 人工智能# 模型 2年前420
李志飞:关于GPT-4的八点观察,多模态大模型竞赛开始 自微软3月初发布多模态模型 Kosmos-1 以来,一直在测试和调整 OpenAI 的多模态模型,并将其更好地兼容微软自有产品。 果不其然,趁着GPT-4发布之际,微软也正式摊牌,New Bing早就... 人工智能# 模型 2年前280
阿里「杀手锏」级语音识别模型来了!推理效率较传统模型提升10倍,已开源 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 阿里达摩院,又搞事儿了。 这两天,它们发布了一个全新的语音识别模型: Paraformer。 开发人员直言不讳:这是我们... 人工智能# 模型 2年前170
ConvNeXt V2来了,仅用最简单的卷积架构,性能不输Transformer 经过几十年的基础研究,视觉识别领域已经迎来了大规模视觉表征学习的新时代。预训练的大规模视觉模型已经成为特征学习(feature learning)和视觉应用的基本工具。视觉表征学习系统的性能在很大程度... 人工智能# 模型 2年前230
arXiv正式规定:预印本不允许以ChatGPT等工具为作者 ChatGPT,这款近期发布的文本生成工具,已经在研究界引起了热烈的讨论。它能写出学生作文、总结研究论文、回答问题、生成可用的计算机代码,甚至足以通过医学考试、MBA 考试、司法考试…… 其中一个关键... 人工智能# 模型 2年前470
后GPT 3.0时代,主流大模型技术精要详解,走向AGI之路的大门已开 ChatGPT 出现后惊喜或惊醒了很多人。惊喜是因为没想到大型语言模型(LLM,Large Language Model)效果能好成这样;惊醒是顿悟到我们对 LLM 的认知及发展理念,距离世界最先进的... 人工智能# 模型 2年前150
禁止大型语言模型胡编乱造,给点外部知识,推理靠谱的很 大型语言模型 (LLM) 已通过 In-context Learning 在各种复杂任务上展现出卓越的性能,并且无需针对特定任务进行训练或微调,近期 prompt 和解码方面取得的进展也使 LLM 解... 人工智能# 模型 2年前480
跑ChatGPT体量模型,从此只需一块GPU:加速百倍的方法来了 计算成本是人们打造 ChatGPT 等大模型面临的重大挑战之一。 据统计,从 GPT 进化到 GPT-3 的过程也是模型体量增长的过程 —— 参数量从 1.17 亿增加到了 1750 亿,预训练数据量... 人工智能# 模型 2年前180
斯坦福博士生自制PPT生成神器ChatBCG免费开放!一键生成自定义模版,还能导出PDF 相信不管是学生党,还是上班族,都有为PPT汇报熬夜爆肝的经历...... 光挑选模版和样式就杀死了一堆脑细胞。 而现在,一款能一键自动生成PPT模版和文字可能成为解放生产力的神器,它就是ChatBCG... 人工智能# 模型 2年前180
英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 扩散模型的图像生成统治地位,终于要被GAN夺回了? 就在大伙儿喜迎新年之际,英伟达一群科学家悄悄给StyleGAN系列做了... 人工智能# 模型 2年前340
首次不依赖生成模型,一句话让AI修图! 2022 年是人工智能生成内容(AI Generated Content,AIGC)爆发的一年,其中一个热门方向就是通过文字描述(text prompt)来对图片进行编辑。已有方法通常需要依赖在大规模... 人工智能# 模型 2年前1470
首个3D人像视频生成模型来了:仅需1张2D人像,眨眼、口型都能改变 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 只需1张普通照片,就能合成全角度动态3D视频。 眨个眼、动动嘴,都是小case~ 最近AIGC爆火,3D人像模型生成这边也... 人工智能# 模型 2年前420
脑补出新视角,一个统一的NeRF代码库框架已开源 假设一个物体你看了几张照片后,能想象出其它角度看上去的感觉吗?人是可以做到的,我们能自行推测出没见过的部分,或者说没见过的角度是什么样的。模型其实也有办法做到,给定一些场景图片,它也能脑补出一些未见过... 人工智能# 模型 2年前270
首个目标检测扩散模型,比Faster R-CNN、DETR好,从随机框中直接检测 扩散模型( Diffusion Model )作为深度生成模型中的新 SOTA,已然在图像生成任务中超越了原 SOTA:例如 GAN,并且在诸多应用领域都有出色的表现,如计算机视觉,NLP、分子图建模... 人工智能# 模型 2年前240
这种精度高,消耗资源少的大模型稀疏训练方法被找到了 近日,阿里云机器学习PAI关于大模型稀疏训练的论文《Parameter-Efficient Sparsity for Large Language Models Fine-Tuning》被人工智能顶会... 人工智能# 模型 2年前150
面向长代码序列的 Transformer 模型优化方法,提升长代码场景性能 阿里云机器学习平台PAI与华东师范大学高明教授团队合作在SIGIR2022上发表了结构感知的稀疏注意力Transformer模型SASA,这是面向长代码序列的Transformer模型优化方法,致力于... 人工智能# 模型 2年前360
AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用 随着大型文本 - 图像模型的出现,生成一幅吸引人的图像已经变得非常简单,用户需要做的就是动动手指输入简单的 prompt 就可以。通过一系列操作得到图像后,我们不免又会产生这样几个问题:基于 prom... 人工智能# 模型 2年前230
必应发狂了! LeCun马库斯齐喷ChatGPT:大语言模型果然是邪路? 马库斯和LeCun忽然就握手言和、统一战线了? 这可奇了,两人过去一向是死对头,在推特和博客上你来我往的骂战看得瓜众们是啧啧称奇。 恭喜LeCun,你终于站到了正确的一边。 其实,这件事是有背景的... 人工智能# 模型 2年前160
上海数字大脑研究院发布国内首个多模态决策大模型DB1,可实现超复杂问题快速决策 近日,上海数字大脑研究院(以下简称 “数研院”)推出首个数字大脑多模态决策大模型(简称 DB1),填补了国内在此方面的空白,进一步验证了预训练模型在文本、图 - 文、强化学习决策、运筹优化决策方面应用... 人工智能# 模型 2年前280
模型越大,表现越差?谷歌收集了让大模型折戟的任务,还打造了一个新基准 随着语言模型变得越来越大(参数数量、使用的计算量和数据集大小都变大),它们的表现似乎也原来越好,这被称为自然语言的 Scaling Law。这一点已经在很多任务中被证明是正确的。 或许,也存在某些任务... 人工智能# 模型 2年前250
用CNN做基础模型,可变形卷积InternImage实现检测分割新纪录! 近年来大规模视觉 Transformer 的蓬勃发展推动了计算机视觉领域的性能边界。视觉 Transformer 模型通过扩大模型参数量和训练数据从而击败了卷积神经网络。来自上海人工智能实验室、清华... 人工智能# 模型 2年前2440
首个ChatGPT国产平替来了!ChatYuan发布测试版,无需注册,体验完全免费 还在想方设法注册体验ChatGPT吗?不用那么麻烦了! 中文NLP社区也迎来了自己的ChatGPT,最近元语智能开发团队训练了一个叫做元语AI(ChatYuan)的模型,它通过对话形式进行交互:可以回... 人工智能# 模型 2年前300
直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习 随着深度学习模型的应用和推广,人们逐渐发现模型常常会利用数据中存在的虚假关联(Spurious Correlation)来获得较高的训练表现。但由于这类关联在测试数据上往往并不成立,因此这类模型的测试... 人工智能# 模型 2年前180
Meta推出MoDem世界模型:解决视觉领域三大挑战,LeCun转发 12月27日,MetaAI 负责视觉和强化学习领域的A 截止27日晚间,这篇推文的阅读量已经达到73.9k。 他表示,仅给出5个演示,MoDem就能在100K交互步骤中解决具有稀疏奖励和高维动作空间的... 人工智能# 模型 2年前160
推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA 文本到图像生成是 2022 年最火的 AIGC 方向之一,被《science》评选为 2022 年度十大科学突破。最近,谷歌的一篇文本到图像生成新论文《Muse: Text-To-Image Gene... 人工智能# 模型 2年前150
文本图片编辑新范式,单个模型实现多文本引导图像编辑 论文简要概述 利用文本对图像进行编辑的相关研究非常火热,最近许多研究都基于去噪扩散模型来提升效果而少有学者继续关注 GAN 的相关研究。本文基于经典的 StyleGAN 和 CLIP 并提出语义调制模... 人工智能# 模型 2年前220
扩散模型和Transformer梦幻联动!一举拿下新SOTA,MILA博士:U-Net已死 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 “U-Net已死,Transformer成为扩散模型新SOTA了!” 就在ChatGPT占尽AI圈风头时,纽约大学谢赛宁的... 人工智能# 模型 2年前120
物理改变图像生成:扩散模型启发于热力学,比它速度快10倍的挑战者来自电动力学 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 现在,图像生成领域的半壁江山已经被物理学拿下了。 火出圈的DALL·E 2、Imagen和Stable Diffusion... 人工智能# 模型 2年前330
CLIP不接地气?你需要一个更懂中文的模型 本文介绍的是达摩院魔搭社区 ModelScope 近期开源的中文 CLIP 大规模预训练图文表征模型,更加懂中文和中文互联网的图像,在图文检索、零样本图片分类等多个任务中实现最优效果,同时代码和模型已... 人工智能# 模型 2年前240
这段视频火爆外网,谷歌把AI视频造假搞得太真太简单了 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 家人们,AI做视频这事今天又被推向了舆论的风口浪尖。 起因是有人在网上发布了这么一只小企鹅的视频: 而这个近50秒视频的诞... 人工智能# 模型 2年前2190
首个在ImageNet上精度超过80%的二值神经网络BNext问世,-1与+1的五年辛路历程 两年前,当 MeliusNet 问世时,机器之心曾发表过一篇技术文章《第一次胜过 MobileNet 的二值神经网络,-1 与 + 1 的三年艰苦跋涉》,回顾了 BNN 的发展历程。彼时,依... 人工智能# 模型 2年前80
无需注意力的预训练;被GPT带飞的In-Context Learning 论文 1:ClimateNeRF: Physically-based Neural Rendering for Extreme Climate Synthesis 作者:Yuan Li等 论文地址:h... 人工智能# 模型 2年前320
视觉卷不动了,来看看分子领域?全球首个分子图像自监督学习框架ImageMol来了 分子是维持物质化学稳定性的最小单位。对分子的研究,是药学、材料学、生物学、化学等众多科学领域的基础性问题。 分子的表征学习(Molecular Representation Learning)是近年来... 人工智能# 模型 2年前450
真的这么丝滑吗?Hinton组提出基于大型全景掩码的实例分割框架,图像视频场景丝滑切换 全景分割是一项基本的视觉任务,该任务旨在为图像的每个像素指定语义标签和实例标签。语义标签描述每个像素的类别(例如天空、竖直物体等),实例标签为图像中的每个实例提供唯一的 ID(以区分同一类别的不同实例... 人工智能# 模型 2年前160
开源模型、单卡训练,带你了解爆火的文本指导音频生成技术AudioLDM 给出一段文字,人工智能就可以生成音乐,语音,各种音效,甚至是想象的声音,比如黑洞和激光枪。最近由英国萨里大学和帝国理工学院联合推出的AudioLDM,在发布之后迅速火遍国外,一周内在推特上收获了近 3... 人工智能# 模型 2年前150
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先 实现任务通用是深度学习基础模型研究的核心问题,也是近期大模型方向的主要关注点之一。 然而,在时间序列领域,各类分析任务的差别较大,既有需要细粒度建模的预测任务,也有需要提取高层语义信息的分类任务。如何... 人工智能# 模型 2年前190
生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别 当前主流语义分割算法本质上是基于 softmax 分类器的判别式分类模型,直接对 p (class|pixel feature) 进行建模,而完全忽略了潜在的像素数据分布,即 p (class|pix... 人工智能# 模型 2年前170
英伟达「一句话生成3D模型」碾压谷歌:分辨率清晰八倍,速度快两倍,编辑文本还可直接修改 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 一句话生成3D模型,英伟达也来“秀肌肉”了~ 来看它最新捣鼓出的Magic3D AI,效果是这样儿的。 输入“坐在睡莲上的... 人工智能# 模型 2年前590
DALL-E和Flamingo能相互理解吗?三个预训练SOTA神经网络统一图像和文本 多模态研究的一个重要目标就是提高机器对于图像和文本的理解能力。特别是针对如何在两种模型之间实现有意义的交流,研究者们付出了巨大努力。举例来说,图像描述(image captioning)生成应当能将图... 人工智能# 模型 2年前270
北大河图发布分布式训练神器Galvatron, 一键实现大模型高效自动并行 最近一段时间,「大模型」在 AI 领域的各种应用场景都大放异彩,其中基于 Transformer 的大规模预训练模型是最典型的大模型之一,已经成为了当前基础模型(Foundation Model)的核... 人工智能# 模型 2年前140
Meta千亿参数大模型OPT-IML「升级版」来了,完整模型和代码公布! 今年五月,MetaAI官宣发布了基于1750亿参数的超大模型OPT-175B,还对所有社区免费开放。 12月22日,该模型的更新版本OPT-IML(Open Pre-trained Transform... 人工智能# 模型 2年前280
图片迟迟加载不了、一片马赛克?谷歌开源模型优先显示图像受关注部分 当观察一副图像时,你会先注意图像的哪些内容,或者说图像中的哪些区域会首先吸引你的注意力,机器能否学会人类的这种注意力形式。在来自谷歌的一项研究中,他们开源的注意力中心模型(attention cent... 人工智能# 模型 2年前170
100万亿参数的GPT 4 刷屏AI社区,大概率是假消息 今天,你的朋友圈一定有这样一则重磅消息: 「GPT 3 有 1750 亿参数,而接下来的 GPT4 的参数高达 100 万亿」。这样一个「大新闻」引爆了 AI 社区,在推特、微信朋友圈引起了极大关注... 人工智能# 模型 2年前80
只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型 近来,文本到图像模型成为一个热门的研究方向,无论是自然景观大片,还是新奇的场景图像,都可能使用简单的文本描述自动生成的。 其中,渲染天马行空的的想象场景是一项具有挑战性的任务,需要在新的场景中合成特定... 人工智能# 模型 2年前140
统治扩散模型的U-Net要被取代了,谢赛宁等引入Transformer提出DiT 近几年,在 Transformer 的推动下,机器学习正在经历复兴。过去五年中,用于自然语言处理、计算机视觉以及其他领域的神经架构在很大程度上已被 transformer 所占据。 不过还有许多图像级... 人工智能# 模型 2年前260
预训练无需注意力,扩展到4096个token不成问题,与BERT相当 Transformer 作为 NLP 预训练模型架构,能够有效的在大型未标记的数据上进行学习,研究已经证明,Transformer 是自 BERT 以来 NLP 任务的核心架构。 最近的工作表明,状态... 人工智能# 模型 2年前150