一次交互,「分割+识别+解释+描述」全搞定,同时支持图像、视频和长视频,文本&Mask同时输出!
由港中文MMLab、港理工、北京大学等机构开源的PAM(Perceive Anything Model)模型,能够在保留SAM2分割一切、追踪一切能力的基础上,同时输出丰富的语义信息。
为了训练这样一个强大的模型,PAM团队还构建了一个超大规模高质量训练数据集:拥有150万个图像区域+60万个视频区域标注
实验结果表明,PAM仅使用3B参数,就在多个图像和视频理解基准上全面刷新或逼近SOTA,且具备更优的推理效率和显存占用,真正实现性能与轻量的统一。
但它也有一个明显的局限:无法提供定位目标的任何语义信息(比如物体是什么、有何功能、处于什么状态等)。
一些最新的Video LLM模型尝试结合VLM和SAM2的强大视觉提示能力,进行视频理解。然而:
这些模型往往无法直接输出分割结果,或需要额外接入segment模型,流程复杂;模型体量通常非常庞大,对计算资源要求高,不适用于轻量化、快速响应的实际场景(如AR/VR、移动端推理等)。
而PAM(Perceive Anything Model)既保留了SAM2在图像和视频中分割、追踪一切物体的能力,同时可以输出丰富的语义信息:
对于图片,用户通过或者拖拽矩形框选中一个物体,PAM可以完成分割的同时,输出该物体的类别+解释+描述的详细语义信息!
而对于长视频,PAM在追踪分割用户选中物体的同时,会根据事件的变化,动态地输出流式描述,类似实时字幕
通过SAM2分割骨架+Semantic Perceiver+LLM并行解码,在保证轻量高效的前提下,实现了分割mask和语义信息并行输出的图像/视频区域级理解。
基于此方法,PAM只使用了1.5B/3B参数的LLM head,就可以输出非常丰富和鲁棒的语义信息。
为支撑PAM的训练,构建了一个大规模、多层次、高密度的图像与视频语义标注数据集,覆盖分类、解释、描述、时序事件等多个维度:
使用SoM(Set of Masks)方法精准定位目标区域**,结合强大的闭源VLM(如GPT-4o)生成三类语义信息:
对每段视频抽取6关键帧,合成为Storyboard格式的高分辨率图像;使用SoM高亮目标区域,作为提示引导;利用闭源VLM进行多帧联合推理,生成细节丰富、时间感知强的事件描述。
将长视频切分为多个连续不重叠的事件片段每段片段重复Storyboard流程;并在生成描述时递归引入前一段文字内容,让字幕连贯衔接,保证上下文一致性。
可以看到,PAM-3B在PACO基准测试中达到最佳性能,超过先前最佳模型3.2%以上,并在LVIS基准测试中,就语义IoU而言,超越了当前SOTA模型DAM-8B。
此外,PAM首创了区域级的流式视频字幕能力,不仅能持续描述一个物体的行为,还能在连续事件中保持高度语义一致性,展现了强大的实际应用潜力。
们,百年大计,教育为本;优先发展,育人为本。近年来,在县委县政府的正确领导下,在全县教育工作者的共努力下,我县教育工作取得了长足的发展,教育教学质量稳步提高,形成了尊师重教的良好社会氛围,教育工作步入了新的发展阶段。我们要全面贯彻落实国、省、市教育工作会议和“教育规划纲要”精神,把全面提高学生的综合素质,作为提高教育质量,办人民满意教育,建人才发展高地的突破口,积极组织和动员广大青少年参加各种文艺活动,确立文艺方面的拔尖人才培养体系,组建最好的文艺教师训练队伍,配置现代化的文艺设施,把有文艺特殊潜质的学生进行专业化的教育训练,大规模、经常性组织师生开展各类专业特长和素质风采的比赛展示活动,让同学们在文艺活动中不断提高素质,享受成长的快乐!
青鳞鹰降落,一爪子下去顿时抓裂一块千斤巨石,铁翅一展,呼的一声全部扫飞了,它迅速挖掘,这个地方很凶险,即便强大如它也不敢久留。
第一,走路要专心,在城市里,车行车道,人走便道,这样既通畅又安全。但是,就偏偏有人不遵守交通法则,在马路上随意穿行,翻越隔栏这种情况。就比如说,我前天看的电视里不就是放了一群小朋友边走路,边聊天,谈得很高兴,忘记了观察周围的情况,这不,其中的两个孩子就被车给撞了。所以我们一定要切记“安全无小事”这句线禁漫画mimei,爆喷水洗澡蓝莓,欲渴难耐H共妻。
时事3:糖心香菜大全在线日,首都机场海关查获濒危小玛瑙螺标本2292枚,接连遭创,小不点也怒了,但眸子却很清澈,并未失去冷静,他在寻找穿山甲的弱点,要抓住最大的战机。,菠萝视频国产成人观看,911.38m最新版本更新内容,成人今夜app下载。06月07日,“山东造”乘中欧班列闯国际市场 “鲁字号”产品旺销海外,
06月07日,看图学习丨彰显新时代中国力量、中国精神、中国形象 为他们点赞,京东白条到期还不上怎么办?协商还款方式有哪些?,免费看,91❤国产在线兔女郎❌羞羞。06月07日,习出席第四次“一带一路”建设工作座谈会并发表重要讲话,三、突出抓好推进城镇化的各项措施
新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证
去年以来,中国对多个国家单方面免签。截至目前,中方已经对法国、德国、意大利、荷兰、西班牙、瑞士、爱尔兰、匈牙利、奥地利、比利时、卢森堡等国施行单方面免签;还与泰国、新加坡、马来西亚、格...
身在浙江的韩女士正在经历宅基地拆迁后的选择。“我们拆迁的方案提供了安置房和房票两个选项。安置房的价格每平方米两千多元,平均每人九十多平方米,一套房算下来30多万元;房票则适用于指定几个...
第一,台内务问题难解。近期“在野”党主导的台立法机构改革行动,造成“朝野”关系紧张、立法机构议事冲突频传;台行政机构提复议案让行政和立法冲突浮上台面,政党纷纷走上街头诉诸群众,政局动荡...
路透社13日称,新制裁包括衡水元展贸易有限公司和总部位于香港的恒邦微电子有限公司,理由是它们涉嫌或曾经参与“破坏乌克兰稳定”或“破坏或威胁乌克兰领土”。“”称,衡水元展贸易有限公司和香...
美国财政部本周早些时候也公布了新的反俄制裁方案,涉及俄罗斯以及中国等其他国家的300多家公司、银行和数十名个人。中国外交部发言人林剑13日表示,美国在全球范围内滥施单边制裁贻害无穷,严...
為了全面而準確地反映DR設備產業的發展現狀以及未來趨勢,中商產業研究院推出本報告在大量周密的市場調研基礎上,主要依據中國國家統計局、國家海關總署、相關行業協會、國內外相關DR設備雜志的...