月之暗面又开源了 登顶全球第一,还超了新版DeepSeek-R1 今日凌晨,月之暗面推出针对软件工程任务的全新开源代码大模型Kimi-Dev-72B。该模型在SWE-bench Verified编程基准测试中取得了全球最高开源模型水平,以仅72B的参数量,成绩超过了... 人工智能# b# bench# swe 5个月前0120
权重值:搜索引擎排名的关键因素 权重值是衡量某个因素或变量在整体中所占重要性的一个数值指标。在不同的领域和情境中,权重值的具体含义和计算方式可能有所不同。在统计学中,权重值通常用来表示数据点在总体中的相对重要性,它影响着数据的加权平... 系统教程# 因素# 数据# 权重 11个月前080
万字长文,带你搞懂 Kubernetes 网络模型 Kubernetes 是为运行分布式集群而建立的,分布式系统的本质使得网络成为 Kubernetes 的核心和必要组成部分,了解 Kubernetes 网络模型可以使你能够正确运行、监控和排查应用程序... 系统教程# kubernetes# 技术# 指南 2年前110
第四范式开发用于分子性质预测的生成式3D预训练模型 论文标题:Automated 3D Pre-Training for Molecular Property Prediction 论文链接:https://arxiv.org/abs/2306.078... 人工智能# 模型 2年前440
FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了 以 ChatGPT 为代表的大型语言模型(LLM)在各项任务上的高效表现彰显了其广阔发展前景。然而,大模型回复与人类价值偏好经常存在不一致问题。 如何让大模型更好的与人类价值观对齐,理解语言背后的含义... 人工智能# 模型 2年前640
GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群 自 GPT-4 问世以来,人们一直惊艳于它强大的涌现能力,包括出色的语言理解能力、生成能力、逻辑推理能力等等。这些能力让 GPT-4 成为机器学习领域最前沿的模型之一。然而,OpenAI 至今未公开 ... 人工智能# 模型 2年前750
大模型自主智能体爆火,OpenAI也在暗中观察、发力,这是内部人的分析博客 最近几个月,随着大语言模型的持续火爆,利用其构建 AI 智能体的研究陆续进入人们的视线。AI 智能体这个概念也流行开来,不断突破人们的想象力。 先是斯坦福大学、谷歌的研究者,他们成功构建了一个「虚拟小... 人工智能# 模型 2年前400
王小川的大模型打造秘籍首次曝光:五步走,两个月炼成 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 王小川两个月交卷的大模型,是怎么炼成的? 现在,这个问题有了更为详细的解。 70亿参数、一经发布就开源可商用,百川智能的中... 人工智能# 模型 2年前490
阿里解马斯克难题?国内首个大模型价值对齐数据集开源,15万评测题上线! 如何让AI和人类的价值观对齐?这个问题,曾经难倒了业界的一众大佬。 OpenAI已经预言,超级智能会在10年内降临。为了不让它失控,OpenAI要组建「超级对齐」(Superalignment)团队... 人工智能# 模型 2年前380
大型语言模型与知识图谱协同研究综述:两大技术优势互补 大型语言模型(LLM)已经很强了,但还可以更强。通过结合知识图谱,LLM 有望解决缺乏事实知识、幻觉和可解释性等诸多问题;而反过来 LLM 也能助益知识图谱,让其具备强大的文本和语言理解能力。而如果能... 人工智能# 模型 2年前270
大模型时代,解析周志华教授的「学件」思想:小模型也可做大事 毫无疑问,我们正在进入一个大模型时代,各种开源或闭源的大模型不断涌现,解决一个又一个的应用,填补一个又一个的空白。而在此之前已经有了许多「足够好的」小模型。于是对于用户来说,要找到合适的模型就更加困难... 人工智能# 模型 2年前420
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳 2020 年 12 月发布的 CPM-1 是国内首个中文大模型 ;2022 年 9 月发布的 CPM-Ant 仅微调 0.06% 参数就能超越全参数微调效果;2023 年 5 月发布的 WebCPM ... 人工智能# 模型 2年前510
Midjourney「搞怪」炸出!表情包生成器,马斯克变身公主|附教程 Midjourney 5.2发布才一周,又迎来了重大更新! 没想到,新功能「weird」一出,网友们脑洞大开,便在这条路上一发不可收拾。 风格不同搞怪表情包,恐怖大片泉涌,比如这个新版「复仇者联盟... 人工智能# 模型 2年前120
67个主题,11528 个问题,全新中文大模型多任务基准CMMLU发布 MBZUAI,上海交通大学,微软亚洲研究院合作完成了一个全面的中文大模型基准——CMMLU。 它涵盖了 67 个主题,涉及自然科学、社会科学、工程、人文、以及常识等,可以全面地评估大模型在中文知识储备... 人工智能# 模型 2年前510
一份来自Huggingface的大模型进化指南:没有必要完全复现GPT-4 大数据文摘出品 ChatGPT爆火之后,AI界进行了一场“百模大战”。近日,Huggingface的机器学习科学家Nathan Lambert,在一篇博文中对当前入局大模型的力量,从开源视角进行了梳理... 人工智能# 模型 2年前430
最强API调用模型来了!基于LLaMA微调,性能超过GPT-4 继羊驼之后,又来了个以动物命名的模型,这次是大猩猩(Gorilla)。 虽说目前LLM风头正旺,进展颇多,在各种任务中的性能表现也可圈可点,但这些模型通过API调用有效使用工具的潜力还亟待挖掘。 即使... 人工智能# 模型 2年前790
谷歌PaLM 2弱爆:LLM大排名屈居第六,准中文倒数第二|UC伯克利排行榜新鲜榜出炉 由UC伯克利主导的「LLM排位赛」又双叒更新了! 这次,最新榜单又迎来新的玩家,PaLM 2(也是就Bard)、Claude-instant-v1,MosaicML MPT-7B,以及Vicuna-7... 人工智能# 模型 2年前470
超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了 最近一段时间,随着大语言模型(LLM)的不断发布,LLM 排位赛也变得火热起来,研究者们试图在新的 LLM 评测系统中不断刷新自家模型的分数。 在这当中,斯坦福发布的全新大语言模型排行榜 Alpaca... 人工智能# 模型 2年前150
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果 「别太迷信大模型的涌现,世界上哪儿有那么多奇迹?」斯坦福大学的研究者发现,大模型的涌现与任务的评价指标强相关,并非模型行为在特定任务和规模下的基本变化,换一些更连续、平滑的指标后,涌现现象就不那么明显... 人工智能# 模型 2年前1050
大模型知识Out该怎么办?浙大团队探索大模型参数更新的方法—模型编辑 夕小瑶科技说 原创 作者 | 小戏、Python 大模型在其巨大体量背后蕴藏着一个直观的问题:“大模型应该怎么更新?” 在大模型极其巨大的计算开销下,大模型知识的更新并不是一件简单的“学习任务”,理想... 人工智能# 模型 2年前360
LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的? LeCun究竟是经过了怎样的思考,才得出了世界模型是AI大模型未来最理想道路的结论? 很幸运,去年曾听过他在暑假学校关于统计物理和机器学习演讲的学生Ania Dawid,将他的观点仔细地整理和发表出来... 人工智能# 模型 2年前420
复杂推理:大语言模型的北极星能力 最近,很多关于较小模型的研究取得了令人振奋的对话能力,这让人们想象,是否较小的模型能具有与像 GPT-3.5 这样的大型模型相当的性能。一般来说,语言模型具有多维能力,所以模型之间的相互对比较为困难... 人工智能# 模型 2年前400
微软官方亲自出教程,拿捏「Prompt工程」高级玩法 几个月来,ChatGPT、GPT-4 等大模型陆续发布。这些模型表现出了强大的涌现能力,但模型生成的结果是随机的,时好时坏,部分原因与 Prompt 的设计密切相关。 很多人将 Prompt 比喻为大... 人工智能# 模型 2年前530
微调7B模型只用单GPU!通用多模态工具LLaMA-Adapter拆掉门槛,效果惊人 LLaMA-Adapter,现在已经完全解锁了。 作为一个通用的多模态基础模型,它集成了图像、音频、文本、视频和3D点云等各种输入,同时还能提供图像、文本和检测的输出。 相比于之前已经推出的LLaMA... 人工智能# 模型 2年前370
GPT-4等大模型自己制作工具,识别ChatGPT造假 目录: Multiscale Positive-Unlabeled Detection of AI-Generated Texts Towards Revealing the Mystery behi... 人工智能# 模型 2年前520
有证据了,MIT表明:大型语言模型≠随机鹦鹉,确实能学到语义 虽然大型预训练语言模型(LLM)在一系列下游任务中展现出飞速提升的性能,但它们是否真的理解其使用和生成的文本语义? 长期以来,AI社区对这一问题存在很大的分歧。有一种猜测是,纯粹基于语言的形式(例如训... 人工智能# 模型 2年前370
不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究 在大家不断升级迭代自家大模型的时候,LLM(大语言模型)对上下文窗口的处理能力,也成为一个重要评估指标。 比如 OpenAI 的 gpt-3.5-turbo 提供 16k token 的上下文窗口选项... 人工智能# 模型 2年前330
路径规划中的DRL与OR算法:对比与展望 1、什么是运筹优化 运筹学(Operations Research)作为数学、计算机科学、管理学的交叉学科,最早起源于一战中的防空作战系统,由钱学森先生引入中国,最开始的用途是优化航空/军工等领域。如... 人工智能# 模型 2年前580
让大学生跑语言大模型,这场世界超算竞赛刚结束,北大首次夺冠 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 第十届ASC世界大学生超算竞赛总决赛,终于在中国科学技术大学落下帷幕。 北京大学首次获得ASC决赛冠军,而东道主中国科学技... 人工智能# 模型 2年前230
调LLaMA类模型没那么难,LoRA将模型微调缩减到几小时 最近几个月,ChatGPT 等一系列大语言模型(LLM)相继出现,随之而来的是算力紧缺日益严重。虽然人人都想打造专属于自己的大模型,但是能负担得起上亿参数模型训练的机构却寥寥无几。 在快速发展的人工智... 人工智能# 模型 2年前220
高效利用多级用户意图,港科大、北大等提出会话推荐新模型Atten-Mixer 推荐系统作为一种智能化的信息过滤技术,已在实际场景中得到广泛的应用。然而,推荐系统的成功往往建立在大量的用户数据之上,而这些数据可能涉及用户的私密和敏感信息。在用户信息受到隐私保护限制或无法获取的场景... 人工智能# 模型 2年前430
爱因斯坦霉霉同框只需15秒,最新可控AI一玩停不下来,在线试玩已出 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 现在,AI绘画完全可以做到指哪打哪了! 这边哈士奇,那边牧羊犬,背景在下雪天。 啪叽!一幅画就这么完成了。 这个最新Mul... 人工智能# 模型 2年前1690
时间序列也能和大模型结合?亚马逊最新工作,大模型可解释时序预测 这几天亚马逊发布了一篇使用大模型做时间序列预测的工作,属于大模型在时序预测中的第一次探索,利用大模型提升金融场景预测中的多模态数据处理能力和可解释能力。这篇文章属于一个比较有意思的探索工作,思路可以借... 人工智能# 模型 2年前150
ChatGPT能写长篇小说了,ETH提出RecurrentGPT实现交互式超长文本生成 如今大型语言模型(如 ChatGPT)风靡全球,其最重要的应用之一就是辅助用户完成各种日常写作,如撰写电子邮件,创作博客文章,都能得到它的有力支持。但是目前包括 ChatGPT 在内的各种大语言模型在... 人工智能# 模型 2年前440
基于重排序的新量化方法RPTQ:实现大型语言模型的 3 比特量化 大型语言模型(LLMs)在各种任务上表现出色,但由于其庞大的模型规模,部署方面存在挑战。 在这篇论文中,来自后摩智能、腾讯 AI Lab、华中科技大学、北京大学、伊利诺伊理工学院的研究人员发现量化大型... 人工智能# 模型 2年前510
基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2 对于多模态基础模型,我们希望其不仅可以处理特定的多模态相关任务,还希望其处理单模态任务时也具有优异的性能。阿⾥达摩院团队发现现有的模型往往不能很好的平衡模态协作和模态纠缠的问题,这限制了模型在各种单模... 人工智能# 模型 2年前530
给语言大模型加上综合视听能力,达摩院开源Video-LLaMA 视频在当今社交媒体和互联网文化中扮演着愈发重要的角色,抖音,快手,B 站等已经成为数以亿计用户的热门平台。用户围绕视频分享自己的生活点滴、创意作品、有趣瞬间等内容,与他人互动和交流。 近期,大语言模型... 人工智能# 模型 2年前180
HuggingChat叫板ChatGPT!300亿参数大模型免费用,网友:真香 大事不妙,ChatGPT的平替真来了! 一夜醒来,最大开源社区Hugging Face发布了HuggingChat,有300亿参数。 既开源,还免费,互联网上随随便便就能用。 网址戳这里:hf.co... 人工智能# 模型 2年前540
「成熟」大模型才能涌现?MIT:GPT-4能自我纠错代码,GPT-3.5却不行 我们都知道,大语言模型在生成代码方面,表现出了非凡的能力。然而,在具有挑战性的编程任务(比如竞赛和软件工程师的面试)中,它们却完成得并不好。 好在,很多模型会通过一种自修复工作流来「自省」,来自我纠正... 人工智能# 模型 2年前320
模块化MoE将成为视觉多任务学习基础模型 多任务学习(MTL)存在很多挑战,因为不同任务之间的梯度可能矛盾。为了利用任务之间的关联,作者引入了 Mod-Squad 模型,它是多个专家组成的模块化模型。模型可以灵活优化任务和专家的匹配,针对任务... 人工智能# 模型 2年前420
300美元平替ChatGPT!斯坦福130亿参数「小羊驼」诞生 继Meta的LLaMA模型开源后,AI界研究人员就在这个模型基础上衍生出许多版本。 前段时间,斯坦福发布了Alpaca,是由Meta的LLaMA 7B微调而来,仅用了52k数据,性能可以与GPT-3... 人工智能# 模型 2年前640
识别「ChatGPT造假」,效果超越OpenAI:北大、华为的AI生成检测器来了 随着生成式大模型的不断进步,它们生成的语料正逐步逼近人类。虽然大模型正在解放无数文书的双手,它以假乱真的强劲能力也为一些不法分子所利用,造成了一系列社会问题: 来自北大、华为的研究者们提出了一种识别各... 人工智能# 模型 2年前240
规模性能双杀OpenAI,Meta语音达LLaMA级里程碑!开源MMS模型可识别1100+语言 在语音方面,Meta又达到了另一个LLaMA级的里程碑。 今天,Meta推出了一个名为MMS的大规模多语言语音项目,它将彻底改变语音技术。 MMS支持1000多种语言,用圣经训练,错误率仅为Whisp... 人工智能# 模型 2年前480
小模型的意见也有用!GPT-4+AutoGPT在线决策:买东西再也不用纠结了 这篇论文通过对真实世界决策任务中的Auto-GPT代理进行了全面的基准研究,探索了大型语言模型(LLM)在决策任务中的应用。 论文链接:https://arxiv.org/pdf/2306.02224... 人工智能# 模型 2年前480
蒸馏也能Step-by-Step:新方法让小模型也能媲美2000倍体量大模型 大型语言模型能力惊人,但在部署过程中往往由于规模而消耗巨大的成本。华盛顿大学联合谷歌云计算人工智能研究院、谷歌研究院针对该问题进行了进一步解决,提出了逐步蒸馏(Distilling Step-by-S... 人工智能# 模型 2年前330
Transformer结构及其应用详解——GPT、BERT、MT-DNN、GPT-2 在介绍Transformer前我们来回顾一下RNN的结构 对RNN有一定了解的话,一定会知道,RNN有两个很明显的问题 效率问题:需要逐个词进行处理,后一个词要等到前一个词的隐状态输出以后才能开始处理... 人工智能# 模型 2年前330
马腾宇团队新出大模型预训练优化器,比Adam快2倍,成本减半 鉴于语言模型预训练成本巨大,因而研究者一直在寻找减少训练时间和成本的新方向。Adam 及其变体多年来一直被奉为最先进的优化器,但其会产生过多的开销。本文提出了一种简单的可扩展的二阶优化器 Sophia... 人工智能# 模型 2年前370
利用大模型打造文本摘要训练新范式 1、文本任务 这篇文章主要讨论的是生成式文本摘要的方法,如何利用对比学习和大模型实现最新的生成式文本摘要训练范式。主要涉及两篇文章,一篇是BRIO: Bringing Order to Abstrac... 人工智能# 模型 2年前580
OpenAI更新GPT-4等模型,新增API函数调用,价格最高降75% 前些天,OpenAI 的 CEO Sam Altman 在全球巡回演讲中,透漏了 OpenAI 近期发展路线,主要分两个阶段,2023 年的首要任务是推出更便宜、更快的 GPT-4,更长的上下文窗口等... 人工智能# 模型 2年前350
视觉AI能力大一统!自动化图像检测分割,还能可控文生图,华人团队出品 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 现在AI圈确实到了拼手速的时候啊。 这不,Meta的SAM刚刚推出几天,就有国内程序猿来了波buff叠加,把目标检测、分割... 人工智能# 模型 2年前330
OpenAI联合创始人亲自上场科普GPT,让技术小白也能理解最强AI 在近日举办的微软开发者大会 Microsoft Build 2023 上,OpenAI 联合创始人 Andrej Karpathy 做了一个题为《State of GPT》演讲,其中他首先直观地介绍了... 人工智能# 模型 2年前290
关注点和热点揭秘!大模型用于企业数据开发详解! 点击参加51CTO网站内容调查问卷 作者 | Sam Stone 译者 | 朱先忠 审校 | 重楼 什么?要求GPT-4在提示语押韵的同时,证明存在无穷多的素数,那么它的确能够实现(https://a... 人工智能# 模型 2年前270
一次10万token!GPT4最强对手史诗升级,百页资料一分钟总结完毕 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 号称ChatGPT“最强竞争对手”的Claude,今天迎来史诗级更新—— 模型记忆力原地起飞,现在1分钟看完一本数万字的小... 人工智能# 模型 2年前370
理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度 在人类的日常交流中,经常会关注场景中不同的区域或物体,人们可以通过说话并指向这些区域来进行高效的信息交换。这种交互模式被称为参考对话(Referential Dialogue)。 如果 MLLM 擅长... 人工智能# 模型 2年前300
PromptPG:当强化学习遇见大规模语言模型 数学推理是人类智能的一项核心能力,但对于机器来说,抽象思维和逻辑推理仍然是一个很大的挑战。大规模预训练语言模型,如 GPT-3 和 GPT-4,在文本形式的数学推理(如数学应用题)上已经取得了显著的进... 人工智能# 模型 2年前180
顺序决策与基础模型如何交叉互惠?谷歌、伯克利等探讨更多可能 在广泛数据集上基于自监督学习的预训练基础模型,已经展现出将知识迁移到不同下游任务的优秀能力。因此,这些模型也被应用到长期推理、控制、搜索和规划等更复杂的问题,或者被部署在对话、自动驾驶、医疗保健和机器... 人工智能# 模型 2年前490
大语言模型的进化树,这是一份超详细ChatGPT「食用」指南 而在实际探索的过程中,实践者可能会苦于寻找适合自己应用的 AI 模型:是选择 LLM 还是微调模型?如果用 LLM,又该选择哪一种? 近日,来自亚马逊、德州农工大学、莱斯大学等机构的学者对 ChatG... 人工智能# 模型 2年前570
哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏 由于如Stable Diffusion等视觉生成模型的快速发展,高保真度的人脸图片可以自动化地伪造,制造越来越严重的DeepFake问题。 随着如ChatGPT等大型语言模型的出现,大量假本文也可以容... 人工智能# 模型 2年前330
只要模型够大、样本够多,AI就可以变得更智能! AI模型与人脑在数学机制上并没有什么区别。 只要模型够大、样本够多,AI就可以变得更智能! chatGPT的出现,实际上已经证明了这点。 1,AI和人脑的底层细节都是基于if else语句 逻辑运算... 人工智能# 模型 2年前360
训大模型讲究「化劲」!陶大程带队:一文打尽「高效训练」方案,别再说硬件是唯一瓶颈 深度学习领域已经取得了阶段性重大进展,特别是在计算机视觉、自然语言处理和语音等方面,使用大数据训练得到的大规模模型对于实际应用、提高工业生产力和促进社会发展具有巨大的前景。 不过大模型也需要大算力才能... 人工智能# 模型 2年前620
生成高精细节,新方法AligNeRF解决NeRF对齐问题 虽然 NeRF 能够用不同视角的视图中渲染复杂的 3D 场景,但很少有人致力于探索其在高分辨率设置中的局限性。具体来说,现有的基于 NeRF 的方法在重建高分辨率的真实场景时面临着一些限制,包括大量的... 人工智能# 模型 2年前210
大语言模型做数据助手,浙大Data-Copilot高效调用、处理、可视化数据 金融、气象、能源等各行各业每天都会生成大量的异构数据。人们急切需要一个工具来有效地管理、处理和展示这些数据。 近日,浙江大学提出 DataCopilot,通过部署大语言模型 (LLMs) 来自主地管理... 人工智能# 模型 2年前160
大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?七个类ChatGPT大模型测评 大型语言模型(LLM)正在风靡全球,它们的一个重要应用就是聊天,并在问答、客服和其他许多方面都有应用。然而,聊天机器人是出了名的难以评估。究竟这些模型在什么情况下最好用,我们目前尚不明晰。因此,LLM... 人工智能# 模型 2年前500
一键控制10万多个AI模型,HuggingFace给类ChatGPT模型们做了个「APP Store」 从聊天到编程再到支持各种插件,强大的 ChatGPT 早就不是一个简单的对话助手,而是朝着 AI 界的「管理层」不断前进。 3 月 23 号,OpenAI 宣布 ChatGPT 开始支持各类第三方插件... 人工智能# 模型 2年前430
将26个token压缩成1个,新方法极致节省ChatGPT输入框空间 进入正文之前,先考虑一下像 ChatGPT 这样的 Transformer 语言模型(LM)的 prompt: 随着每天产生数百万用户和查询,ChatGPT 使用自注意力机制对 prompt 进行反复... 人工智能# 模型 2年前220
谷歌推出多模态Vid2Seq,理解视频IQ在线,字幕君不会下线了|CVPR 2023 最近,来自谷歌的研究员提出了一种用于描述多事件视频的预训练视觉语言模型——Vid2Seq,目前已被CVPR23接收。 在以前,理解视频内容是一项具有挑战性的任务,因为视频通常包含在不同时间尺度发生的多... 人工智能# 模型 2年前230
可复现、自动化、低成本、高评估水平,首个自动化评估大模型的大模型PandaLM来了 大模型的发展可谓一日千里,指令微调方法犹如雨后春笋般涌现,大量所谓的 ChatGPT “平替” 大模型相继发布。在大模型的训练与应用开发中,开源、闭源以及自研等各类大模型真实能力的评测已经成为提高研发... 人工智能# 模型 2年前300
四年了,基础开源模型没有真正进步,指令调优大模型评估惊人发现 指令调优大语言模型的出现标志着 NLP 领域迎来一个重要转折点。从 ChatGPT 这类会话助手到解决复杂问题,这些指令调优大模型的变革能力在应用中瞩目。此类模型还包括 GPT-4,它的精通范围不局限... 人工智能# 模型 2年前440
大模型物种进化图转疯了:8位华人打造,一眼看懂“界门纲目”,原来BERT后代已绝种 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 这几天,一张名为“大语言模型进化树”的动图在学术圈疯转: 它清晰梳理了2018到2023五年间所有的大语言模型“代表作... 人工智能# 模型 2年前450
多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构 多模态学习旨在理解和分析来自多种模态的信息,近年来在监督机制方面取得了实质性进展。 然而,对数据的严重依赖加上昂贵的人工标注阻碍了模型的扩展。与此同时,考虑到现实世界中大规模的未标注数据的可用性,自监... 人工智能# 模型 2年前400
DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率 大型 AI 模型正在改变数字世界。基于大型语言模型 (LLM) 的 Turing-NLG、ChatGPT 和 GPT-4 等生成语言模型用途广泛,能够执行摘要、代码生成和翻译等任务。同样,DALL・E... 人工智能# 模型 2年前310
谷歌复用30年前经典算法,CV引入强化学习,网友:视觉RLHF要来了? ChatGPT 的火爆有目共睹,而对于支撑其成功背后的技术,监督式的指令微调以及基于人类反馈的强化学习至关重要。这些技术也在逐渐扩展到其他 AI 领域,包括计算机视觉(CV)。 我们知道,在处理计算... 人工智能# 模型 2年前340
13948道题目,涵盖微积分、线代等52个学科,上交清华给中文大模型做了个测试集 ChatGPT 的出现,使中文社区意识到与国际领先水平的差距。近期,中文大模型研发如火如荼,但中文评价基准却很少。 在 OpenAI GPT 系列 / Google PaLM 系列 / DeepMin... 人工智能# 模型 2年前320
高达3.6万亿token!PaLM 2训练数据翻5倍,全新Bard对比ChatGPT有8个优势 决定大模型能力的关键因素,到底是模型的参数,还是训练文本的大小? 谷歌发布的PalM2,似乎选择了后者作为提升的主要路径。 据悉,谷歌用于训练的PaLM2的文本数量几乎是训练其前身模型的5倍。 而且上... 人工智能# 模型 2年前250
ChatGPT自己会选模型了!微软亚研院+浙大爆火新论文,HuggingGPT项目已开源 ChatGPT引爆的AI热潮也「烧到了」金融圈。 近来,彭博社的研究人员也开发了一个金融领域的GPT——Bloomberg GPT,有500亿参数。 GPT-4的横空出世,让许多人浅尝到了大型语言模型... 人工智能# 模型 2年前320
管提需求,大模型解决问题:图表处理神器SheetCopilot上线 这种丝滑的操作流程简直是职场人的福音! 近日,来自中科院自动化所、港理工等机构的研究者们造出了一个「表格 AI 助手」SheetCopilot,该智能体能根据用户指令生成操纵表格的解决方案并在特定软件... 人工智能# 模型 2年前500
多模态可控图片生成统一模型来了,模型参数、推理代码全部开源 论文地址:https://arxiv.org/abs/2305.11147 代码地址:https://github.com/salesforce/UniControl 项目主页:https://sho... 人工智能# 模型 2年前320
LeCun狂赞:600刀GPT-3.5平替! 斯坦福70亿参数「羊驼」爆火,LLaMA杀疯了 一觉醒来,斯坦福大模型Alpaca 火了。 没错,Alpaca是由Meta的LLaMA 7B微调而来的全新模型,仅用了52k数据,性能约等于GPT-3.5。 关键是训练成本奇低,不到600美元。具体花... 人工智能# 模型 2年前400
OpenAI CEO:巨型AI模型时代已结束,马斯克TruthGPT曝光 近几个月来,OpenAI ChatGPT 的强大生成式对话能力引发了人们对 AI 的新兴趣和投资。随着国内外掀起类 ChatGPT 研发热潮,对话式 AI 及背后的大模型被更多人看好。 但上周在 MI... 人工智能# 模型 2年前240
在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数 Transformer 模型在几乎所有自然语言处理(NLP)任务中都带来了革命,但其在序列长度上的内存和计算复杂性呈二次方增长。相比之下,循环神经网络(RNNs)在内存和计算需求上呈线性增长,但由于并... 人工智能# 模型 2年前290
Meta开源的ChatGPT平替到底好不好用?测试结果、加料改装方法已出炉,2天5.2k星 ChatGPT 的持续爆火,早已让各大科技公司坐不住了。 就在刚刚过去的一周,Meta「开源」了一个新的大模型系列 ——LLaMA(Large Language Model Meta AI... 人工智能# 模型 2年前190
训练个中文版ChatGPT没那么难:不用A100,开源Alpaca-LoRA+RTX 4090就能搞定 2023 年,聊天机器人领域似乎只剩下两个阵营:「OpenAI 的 ChatGPT」和「其他」。 ChatGPT 功能强大,但 OpenAI 几乎不可能将其开源。「其他」阵营表现欠佳,但不少人都在做开... 人工智能# 模型 2年前500
130亿参数,8个A100训练,UC伯克利发布对话模型Koala 自从 Meta 发布并开源了 LLaMA 系列模型,来自斯坦福大学、UC 伯克利等机构的研究者们纷纷在 LLaMA 的基础上进行「二创」,先后推出了 Alpaca、Vicuna 等多个「羊驼」大模型... 人工智能# 模型 2年前230
用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型 本月初,Meta推出的「分割一切」模型可谓是震撼了整个CV圈。 这几天,一款名为「Relate-Anything-Model(RAM)」的机器学习模型横空出世。它赋予了Segment Anything... 人工智能# 模型 2年前170
500万token巨兽,一次读完全套「哈利波特」!比ChatGPT长1000多倍 记性差是目前主流大型语言模型的主要痛点,比如ChatGPT只能输入4096个token(约3000个词),经常聊着聊着就忘了之前说什么了,甚至都不够读一篇短篇小说的。 过短的输入窗口也限制了语言模型的... 人工智能# 模型 2年前320
小羊驼背后的英雄,伯克利开源LLM推理与服务库:GPU减半、吞吐数十倍猛增 随着大语言模型(LLM)的不断发展,这些模型在很大程度上改变了人类使用 AI 的方式。然而,实际上为这些模型提供服务仍然存在挑战,即使在昂贵的硬件上也可能慢得惊人。 现在这种限制正在被打破。最近,来自... 人工智能# 模型 2年前350
ChatGPT平替「小羊驼」Mac可跑!2行代码单GPU,UC伯克利再发70亿参数开源模型 自从Meta发布「开源版ChatGPT」LLaMA之后,学界可谓是一片狂欢。 先是斯坦福提出了70亿参数Alpaca,紧接着又是UC伯克利联手CMU、斯坦福、UCSD和MBZUAI发布的130亿参数V... 人工智能# 模型 2年前290
中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发 以下为卢志武教授在机器之心举办的 ChatGPT 及大模型技术大会上的演讲内容,机器之心进行了不改变原意的编辑、整理: 大家好,我是中国人民大学卢志武。我今天报告的题目是《ChatGPT 对多模态通用... 人工智能# 模型 2年前360
AI「黑箱」被打开?谷歌找到大模型能力涌现机制 前段时间,OpenAI整出了神操作,竟让GPT-4去解释GPT-2的行为。 对于大型语言模型展现出的涌现能力,其具体的运作方式,就像一个黑箱,无人知晓。 众所周知,语言模型近来取得巨大的进步,部分原因... 人工智能# 模型 2年前310
分割一切深度图!港科技、南洋理工等开源「SAD」:根据几何信息分割图像 本月初,Meta推出的一款可以「分割一切」的模型Segment Anything Model (SAM) 已经引起了广泛的关注。今天,我们向大家介绍一款名为「Segment Any RGBD(SAD... 人工智能# 模型 2年前230
UC伯克利LLM准中文排行榜来了!GPT-4稳居第一,国人开源RNN模型冲进前六 前段时间,来自LMSYS Org(UC伯克利主导)的研究人员搞了个大新闻——大语言模型版排位赛! 这次,团队不仅带来了4位新玩家,而且还有一个(准)中文排行榜。 OpenAI GPT-4 OpenAI... 人工智能# 模型 2年前270
当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换 4 月初,Meta 发布了史上首个图像分割基础模型--SAM(Segment Anything Model)[1]。作为分割模型,SAM 的能力强大,操作使用方式也十分友好,比如用户简单地点击来选择对... 人工智能# 模型 2年前130
首个大规模使用工具的大模型来了:伯克利发布Gorilla 大型语言模型性能强大,但为了更好地用于解决实际问题,各式各样的 API 是必不可少的。 近日,加利福尼亚大学伯克利分校和微软研究院造出了一只「大猩猩」Gorilla,该模型能根据用户输入的自然语言为用... 人工智能# 模型 2年前160
Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星 Meta的「分割一切」模型横空出世后,已经让圈内人惊呼CV不存在了。 就在SAM发布后一天,国内团队在此基础上搞出了一个进化版本「Grounded-SAM」。 注:项目的logo是团队用Midjour... 人工智能# 模型 2年前80
ControlNet大更新:仅靠提示词就能精准P图,保持画风不变,网友:效果堪比定制大模型 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 Stable Diffusion插件、“AI绘画细节控制大师”ControlNet迎来重磅更新: 只需使用文本提示词,就能... 人工智能# 模型 2年前220
思维链如何释放语言模型的隐藏能力?最新理论研究揭示其背后奥秘 思维链提示(CoT)是大模型涌现中最神秘的现象之一,尤其在解决数学推理和决策问题中取得了惊艳效果。CoT到底有多重要呢?它背后成功的机制是什么?本文中,北大的几位研究者证明了CoT在实现大语言模型(L... 人工智能# 模型 2年前290
谷歌报复性砸出5620亿参数大模型!比ChatGPT更恐怖,机器人都能用,学术圈已刷屏 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 为应对新一轮技术竞赛,谷歌还在不断出后手。 这两天,一个名叫PaLM-E的大模型在AI学术圈疯狂刷屏。 它能只需一句话,就... 人工智能# 模型 2年前190
iPhone两秒出图,目前已知的最快移动端Stable Diffusion模型来了 Stable Diffusion (SD)是当前最热门的文本到图像(text to image)生成扩散模型。尽管其强大的图像生成能力令人震撼,一个明显的不足是需要的计算资源巨大,推理速度很慢:以 S... 人工智能# 模型 2年前110
幻觉?马斯克TruthGPT也搞不定!OpenAI联合创始人直言很复杂 上个月,马斯克疯狂呼吁叫停超级AI研发6个月。 还没等多久,老马就坐不住了,直接官宣推出一个名为TruthGPT的AI平台。 马斯克曾表示,TruthGPT将是一个「最大的求真人工智能」,它将试图理解... 人工智能# 模型 2年前210
AI模仿人脑记忆模式,游戏成绩大涨29.9% 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 我们常常被教育的做事“三思而后行”,充分运用积累过的经验,现在这句话对AI也有所启发了。 传统的决策AI模型由于遗忘效应的... 人工智能# 模型 2年前120