精确定位图中物体-模拟人类先感知后认知-港大字节-多模态大模型新范式

其他1年前发布 admin
7 0 0

精确定位图中物体-模拟人类先感知后认知-港大字节-多模态大模型新范式
精确定位图中物体-模拟人类先感知后认知-港大字节-多模态大模型新范式
精确定位图中物体-模拟人类先感知后认知-港大字节-多模态大模型新范式
精确定位图中物体-模拟人类先感知后认知-港大字节-多模态大模型新范式

当前,多模态大模型(MLLM)在多项视觉任务上展现出了强大的认知理解能力。然而大部分多模态大模型局限于单向的图像理解,难以将理解的内容映射回图像上。比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。定位能力的缺失直接限制了多模态大模型在图像编辑,自动驾驶,机器人控制等下游领域的应用。针对这一问题,港大和字节跳动商业化团队的研究人员提出了一种新范式——通过区域性图像编码来提升多模态大模型的感知定位能力。

在融入定位后,Groma可以将文本内容和图像区域直接关联起来,从而显著提升对话的交互性和指向性。核心思路如何赋予多模态大模型定位物体的能力,乃至于将文字内容和图像区域关联起来,是当前一大研究热点。常见的做法是微调大语言模型使其直接输出物体坐标。然而这种方法却有着诸多限制:在文本上预训练的大语言模型本身不具备空间理解能力,仅依靠少量数据微调很难精准定位物体。定位任务对输入图像的分辨率有较高要求,但提高分辨率会显著增加多模态大模型的计算量。

大语言模型的输出形式不适合处理精细的定位任务,比如分割。基于这些考虑,Groma提出将定位转移到多模态大模型的visiontokenizer中,由visiontokenizer发现并定位潜在的物体,再交给大语言模型识别。同时,这样的设计也充分利用了visiontokenizer本身的空间理解能力,而无需外接专家模型(比如SAM)来辅助定位,从而避免了外接模型的冗余。具体而言,Groma在全局图像编码的基础上,引入了区域编码来实现定位功能——如下图所示,Groma先利用RegionProposer定位潜在的物体,再通过RegionEncoder将定位到的区域逐一编码成regiontoken。

精确定位图中物体-模拟人类先感知后认知-港大字节-多模态大模型新范式

而大语言模型则可以根据regiontoken的语意判断其对应的区域,并通过在输出中插入regiontoken来达成类似超链接的效果,实现visuallygroundedconversation。同样地,用户指定的区域也可以通过RegionEncoder编码成相应的regiontoken,并插入到用户指令中,从而让多模态模型能关注到指定的区域并产生指向性的回答。为了提升定位的鲁棒性和准确性,Groma采用了超过8M的数据(包括SA1B)来预训练RegionProposer。因此其产生的proposal不仅包括常见的物体,也涵盖了物体的组成部分以及更广阔的背景等要素。

精确定位图中物体-模拟人类先感知后认知-港大字节-多模态大模型新范式

得益于分离式的设计,Groma可以采用高分辨率特征图用于RegionProposer/Encoder的输入,并采用低分辨率的特征图用于大模型输入,从而在降低计算量的同时又不损失定位性能。实验结果Groma在传统的GroundingBenchmarks上表现出了超越MiniGPT-v2和Qwen-VL的性能。同时,Groma在多模态大模型通用VQABenchmark(LLaVA-COCO)验证了其对话和推理能力。在可视化的对比中,Groma也表现出了更高的recall和更少的幻觉。

精确定位图中物体-模拟人类先感知后认知-港大字节-多模态大模型新范式

Groma还支持融合对话能力和定位能力的referentialdialogue以及groundedchat。得益于大语言模型强大的认知推理能力,多模态大模型在视觉理解任务上表现突出。然而一些传统的视觉任务,如检测分割、深度估计等,更多依视觉感知能力,这恰恰是大语言模型所缺乏的。

精确定位图中物体-模拟人类先感知后认知-港大字节-多模态大模型新范式
精确定位图中物体-模拟人类先感知后认知-港大字节-多模态大模型新范式

Groma在这个问题上提供了一种新的解决思路,即把感知和认知解耦开来,由visiontokenizer负责感知,语言模型负责认知。这种先感知后认知的形式除了更符合人类的视觉过程,也避免了重新训练大语言模型的计算开销。5月15日,字节跳动刚刚公布了自研的豆包大模型,提供多模态能力,下游支持豆包App、扣子、即梦等50+业务,并通过火山引擎。


辅修学会计好还是市场营销好

会计,市场营销没前途的

软件工程毕业论文技术路线怎么写

你好啊,你的开题报告选题定了没?开题报告选题老师同意了吗?准备往哪个方向写?开题报告学校具体格式准备好了没?准备写多少字还有什么不懂不明白的可以问我,希望可以帮到你,祝开题报告选题顺利通过,毕业论文写作过程顺利。

技术路线一般是指研究的准备,启动,进行,再重复,取得成果的过程,不是指毕业论文的写作过程,更不是指答辩的准备和进行过程,许多同学会出现这些偏误。

多参考下同类型的论文,其实技术路线讲的就是你的论文的整体思路、逻辑推理过程以及采用的论证方法在研究生教育的整个过程中,学位论文质量的高低是衡量研究生培养质量的重要标志。

而论文质量的高低,很大程度上取决于论文开题报告 做的细致程度。

论文开题报告做的细致,前期虽然花费的时间较多,但写起论文来就很顺手,能够做到胸有成竹,从而保证论文在规定的时间保质保量地完成;但如 果不重视论文开题报告,视论文开题报告为走过场,写起论文来就会没有目标,没有方向,没有思路,可能就要多走弯路,也很难保证毕业论文的质量。

一、论文开题报告的意义硕士论文开题报告是研究生在完成文献调研后写成的关于学位论文选题与如何实施的论述性报告。

论文开题报告既是文献调研的聚焦点,又是学位论文研究工作展开的散射点,对研究工作起到定位作用。

写论文开题报告的目的,是要请老师及专家们帮忙判断一下所研究的选题有没有价值,研究方法是否奏效,论证逻辑有没有明显缺陷。

因此论文开题报告就要 围绕研究的主要内容,拟解决的主要问题(或阐述的主要观点),研究步骤、方法及措施为主要内容。

但笔者在工作实践中发现有很多学生往往在论文开题报告中花费大量笔墨叙述别人的研究成果,谈到自己的研究方法时,往往寥寥数语一笔带过。

这样,不便于评审老师指导。

二、如何写论文开题报告(一)论文开题报告的前提——通过理论思维选择课题在工作实践中,发现硕士研究生论文开题报告中存在的普遍问题是选题不合适。

有的提出的问题太过“平庸”,有的选题范围太大,研究内容太多、太宽泛, 提出的问题不切合硕士生的实际,实践操作起来难度较大。

如有的学生提出的论文题目:“新型中性镍催化剂的研究及其催化合成聚乙烯、聚丙烯的研究”,此选题 有意义,有创新,作者的研究思路也比较正确,但论文选题范围太大,研究内容对于一个硕士生来说明显偏多,无法按时完成。

因此应重新确定研究内容,注重项目 的可操作性。

那么如何选择研究问题呢?这里要强调的是通过理论思维来发现研究问题。

理论是由一系列前设和术语构造的逻辑体系,特定领域的理论有其特定的概念、范畴和研究范式,只有在相同的概念、视角和范式下,理论才能够对话。

只有通过对话,理论才能够发展。

硕博论文要想创造新理论很难,多数是在既有理论的基础上加以发展。

其次,选择问题是一个“剥皮”的过程,理论问题总是深深地隐藏在复杂的现实背后,而发现理论问题,则需要运用理论思维的能力。

这就需要我们不断锻炼 和提高自己的理论思维能力,需要在日常的学习中,不断总结和分析以往的研究者大体是从哪些视角来分析和研究问题,运用了哪些理论工具和方法,通过学习和总 结来不断提高自己的理论思维能力,从而选择具有学术理论价值和应用价值,并与国家经济建设及导师承担的科学研究项目紧密结合的研究问题。

(二)做好文献综述,为论文开题报告打好基础在研究生论文开题报告会上,出现的普遍问题是对文献的研读不够,对研究背景的了解不够深入,对研究方向上国内外的具体进展情况了解不够全面、详细, 资料引用的针对性、可比性不强。

有很多学生没有完全搞清论文开题报告与文献综述的区别,他们的论文开题报告有很多仅仅是对前人工作的叙述,而对自己的工作 介绍甚少。

文献综述的基本内容包括:国内外现状;研究方向;进展情况;存在问题;参考依据。

这是对学术观点和理论方法的整理。

同时,文献综述还是评论性的,因此要带着作者本人批判的眼光来归纳和评论文献,而不仅仅是相关领域学术研究的“堆砌”。

要想写好论文开题报告,必须认真研读文献,对所研究的课题有个初步的了解,知道别人都做了哪些工作,哪些方面可以作为自己研究的切入点,因此,文献调研的深入和全面程度,会相当程度地影响论文开题报告的质量,是学生充分发挥主观能动性的客观基础。

(三)论文开题报告的格式及写作技巧1.论文开题报告格式一个清晰的选题,往往已经隐含着论文的基本结论。

对现有文献的缺点的评论,也基本暗含着改进的方向。

论文开题报告就是要把这些暗含的结论、论证结论 的逻辑推理,清楚地展现出来。

论文开题报告的写作步骤:课题选择—课题综述—论题选择—论文开题报告。

论文开题报告的基本内容主要包括:选题的意义;研究 的主要内容;拟解决的主要问题(阐述的主要观点);研究(工作)步骤、方法及措施;毕业论文(设计)提纲;主要参考文献。

为了写好论文开题报告,江苏工业 学院研究生部专门出台了详细的规定,规定论文开题报告的一般内容包括:(1)论文开题报告——课题来源、开题依据和背景情况,课题研究目的以及理论意义和实际应用价值。

(2)论文开题报告——文献综述。

在阅读规定文献量(不少于50篇,其中外文文献占40%以上)的基础上,着重阐述该研究课题国内外的研究现状及发展动态,同时介绍查阅文献的范围以及查阅方式、手段。

(3)论文开题报告——主要研究内容。

包括学术构思、研究方法、关键技术、技术路线、实施方案、可行性分析、研究中可能遇到的难点、解决的方法和措施以及预期目标。

(4)论文开题报告——拟采用的实验手段,所需科研和实验条件,估计课题工作量和所需经费,研究工作进度计划。

(5)论文开题报告——主要参考文献,列出至少10篇所查阅参考的文献。

2.论文开题报告的写作技巧(1)提出问题注意“层次”选题是撰写学术论文的第一步,选题是否妥当,直接关系到论文的质量,甚至关系到论文的成功与否。

不同于政策研究报告,学术文章聚焦理论层面、解决理 论问题。

有的学生的选题不具有新颖性,内容没有创新,仅仅是对前人工作的总结,或是对前人工作的重复。

在选题时要坚持先进性、科学性、实用性及可行性的原则。

在提出问题时,要以“内行”看得懂的术语和明确的逻辑来表述。

选题来源包括:1、与自己实际工作或科研工作相关的、较为熟悉的问题;2、自己从事的专 业某问题发展迅速,需要综合评价;3、从掌握的大量文献中选择反映本学科的新理论、新技术或新动向的题目。

所选题目不宜过大,越具体越容易收集资料,从某一个侧面入手,容易深入。

(2)瞄准主流文献,随时整理文献资料是撰写好学术论文的基础,文献越多,就越好写,选择文献时应选择本学科的核心期刊、经典著作等,要注意所选文献的代表性、可靠性及科学性; 选择文献应先看近期的(近3~5年),后看远期的,广泛阅读资料,有必要时还应找到有关文献所引用的原文阅读,在阅读时,注意做好读书卡片或读书笔记。

整理资料时,要注意按照问题来组织文献资料,写文献综述时不是将看过的资料都罗列和陈述出来,而是要按照一定的思路将其提炼出来。

只有这样,才能写出好的文献综述,也才能写出好的论文开题报告,进而为写出好的论文打下基础。

(3)研究目标具体而不死板一般论文开题报告都要求明确学位论文的研究目标,但笔者认为,研究目标不宜规定得太死板,这是因为,即使条件一定,目标是偏高还是偏低,往往难于准 确判断,研究工作本身,涉及求知因素,各个实验室条件不同,具体研究时条件也不同。

学位论文选题和研究目标体现了研究工作的价值特征。

三、论文开题报告的质量保证为了保证硕士研究生的培养质量,提高论文质量,就必须对论文开题报告进行评价。

论文开题报告会由3~5位相关学科的专家对论文开题报告进行评议,与 企业合作的重大科研项目可以聘请1~2位相应企业的具有高级职称的专家参加,不同学科的论文开题报告的侧重点不同。

江苏工业学院研究生部规定学生必须进行 论文开题报告,并规定了统一的格式,设计了专门的论文开题报告评审表,论文开题报告会上研究生应对课题进行详细汇报,并对专家提问做出必要的解释和说明。

论文开题报告的成绩考核以合格、不合格记。

评审小组成员最后签名并给出学生是否合格的评审意见,并以百分制打出具体的分数。

论文开题报告成绩不合格者,不 得进入课题研究。

为了提高论文质量,研究生必须首先从思想上重视论文开题报告,在平时的学习中注意积累,从各个方面提高能力,尤其要注意培养通过理论思维发现研究问题的能力。

论文开题报告是研究工作的开始,良好的开端为优秀的学位论文奠定了坚实的基础。

姚明赛季报销,火箭能进季后赛否?

姚明将缺席本赛季剩余比赛,这无疑是休斯顿上空的一道晴空霹雳,不知有多少火箭迷的心此刻还在痛着。

或许你会说,这个赛季并没有结束。

是的,结束或许只是对于中国球迷的关注度而言,但没有结束也似乎是仅仅对于赛程而言。

太阳拥有了奥尼尔,湖人得到了加索尔,再加上一如既往沉稳的邓肯率领的马刺,西部的这场内线大战不可避免。

而当对手纷纷补强内线的同时,火箭却失去了内线的倚仗。

且不谈范式火箭的坎坎坷坷,单就这个赛季火箭已经经历了很多。

夏天的大换血让火箭为磨合付出了太多代价。

从普林斯顿的实行期,到战术体系的混乱期,再到单核火箭的惊艳期,在磨合了大半个赛季之后,复出后的麦蒂逐渐明确了自己的定位,火箭也终于走上正轨。

姚明的变化,从过多的高位策应并不能充分发挥他的杀伤力,到麦蒂过多的干拔让姚明有些隐形,再到麦蒂受伤后确立姚明的核心地位。

阿式火箭、阿式姚核心的威力愈发凸显,而姚明的受伤无疑是对火箭毁灭性的打击。

姚明的受伤看似突然,但之前已有一些征兆。

本赛季姚明的上场时间达到了职业生涯最高的37分钟,而场均20+10的表现并不能反映姚明本赛季表现的不稳定。

赛季初姚明的不稳定是由于对新体系的不适应,而之后几场低迷的表现则与体能危机脱不开干系。

这波连胜之前姚明的体能曾出现过透支,对公牛一役诺阿的防守确实在一定程度上限制了姚明的发挥,但从要位的积极性、单打的凶狠程度上,姚明已经略显颓势。

体能问题增加了姚明受伤的概率。

或许势头正旺的火箭不该放弃,但要想弥补姚明的作用,却是不可能完成的任务。

个人认为做好以下几点,火箭或许会给球迷带来惊喜。

继续做好防守。

连胜中我们看到了流畅的进攻,但另一项统计更值得注意,在所有西部球队中,火箭是两支得分不过百时胜率过半的球队之一,另一支则是攻守平衡典范的马刺。

这说明火箭赢球靠的不只是流畅整体的进攻,还有范甘迪遗留下来的防守财富。

没有了姚明这个稳定的攻击点,火箭更需用防守来增强他们的稳定性。

麦蒂需要担当更多的得分重任。

麦蒂复出后成功转型,通过牺牲自己的控球权、出手次数,甚至改变自己的进攻方式来融入全队的体系。

而现在双核之一的麦蒂需要第一个站出来,不过本赛季麦蒂跳投的手感飘忽不定,也不能始终保持突破的强度。

3.保持外线的高效。

三分球一直是火箭重要的进攻武器,对于没有姚明的火箭更是如此。

三分球将成为无姚火箭的生命线,不过好在得到鲍比·杰克逊之后,火箭的外线火力空前强大,外线的“车轮战”值得期待。

4.增加斯科拉在进攻中的比重。

贵为美洲MVP,斯科拉的才华绝不只是防守中的精彩表演,扎实的低位单打能力才是他的看家本领。

之前姚明的牵制让斯科拉的得分更加轻松,而没有姚明的牵制之后,斯科拉的担子将更重,剩下的比赛将成为他的试金石。

而阿帅也完全有理由给予他更多信任。

5.加强突破和突分。

这还是在弥补姚明的内线攻击,突分则给了兰德里更多的施展空间。

但不管怎样,失明的火箭在本赛季很难有大作为。

想起了南拳妈妈的一首歌《不该结束》:快乐的开始不该悲伤的结束,走到了末路还是会留下祝福……

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...