研究作者提出了 Matrix Net (xNet),一种用于目标检测的新深度架构。xNets将具有不同大小尺寸和纵横比的目标映射到网络层中,其中目标在层内的大小和纵横比几乎是均匀的。因此,xNets提供了一种尺寸和纵横比感知结构。研究者利用xNets增强基于关键点的目标检测。新的的架构实现了比任何其他单镜头检测器的时效性高,具有47.8的mAP在MS COCO数据集,同时使用了一半的参数而且相比于第二好框架,其在训练上快了3倍。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
上图所示,xNet的参数及效率要远远超过其它模型。其中FSAF在基于锚点的检测器中效果是最好的,它超过了经典的RetinaNet。研究者提出的模型在参数量类似的情况下性能超过了所有其他single-shot架构。
目标检测是计算机视觉中最广泛研究的任务之一,具有许多应用到其他视觉任务,如目标跟踪、实例分割和图像字幕。目标检测结构可以分为两类:single-shot检测器和two-stage检测器。Two-stage检测器利用区域候选网络找到固定数量的目标候选,然后使用第二个网络来预测每个候选的分数并改进其边界框。
Single-shot检测器也可以分为两类:基于锚的检测器和基于关键点的检测器。基于锚的检测器包含许多锚边界框,然后预测每个模板的偏移量和类。最著名的基于锚的体系结构是RetinaNet,它提出了focal损失函数,以帮助纠正锚边界框的类不平衡。性能最好的基于锚的探测器是FSAF。FSAF将锚基输出与无锚输出头集成在一起,以进一步提高性能。
另一方面,基于关键点的检测器可以预测左上角和右下角的热图,并使用特征嵌入将它们匹配起来。最初的基于关键点的检测器是CornerNet,它利用一个特殊的coener池化层来准确地检测不同大小的目标。从那时起,Centerne通过预测目标中心和角,大大改进了CornerNet体系结构。
下图所示为Matrix nets(xNets),使用分层矩阵建模具有不同大小和丛横比的目标,其中矩阵中的每个条目i、j 表示一个层 li,j,矩阵左上角层 l1,1 中宽度降采样2^(i-1),高度降采样2^(j-1)。对角层是不同大小的方形层,相当于一个 FPN,而非对角层是矩形层(这是xNets所特有的)。 层l1,1是最大的层,每向右一步,层宽度减半,而每向下一步高度减半。
例如,层l3,4是层l3,3宽度的一半。对角层建模宽高比接近方形的目标,而非对角层建模宽高比不接近方形的目标。接近矩阵右上角或左下角的层建模宽高比极高或极低的目标。这类目标非常罕见,所以可以对它们进行剪枝以提升效率。
生成矩阵层是一个关键的步骤,因为它影响模型参数的数量。参数越多,模型表达越强,优化问题越困难,因此研究者选择尽可能少地引入新的参数。对角线层可以从主干的不同阶段获得,也可以使用特征金字塔框架。上三角层是在对角线层上施加一系列具有1x2步长的共享3x3卷积得到的。类似地,左下角层是使用具有2x1步长的共享3x3卷积得到的。参数在所有下采样卷积之间共享,以最小化新参数的数量。
矩阵中的每个层都对具有一定宽度和高度的目标进行建模,因此我们需要定义分配给矩阵中每个层的目标的宽度和高度范围。范围需要反映矩阵层特征向量的感受野。矩阵中向右的每一步都有效地使水平维度中的感受野加倍,而每一步都使垂直维度上的感受场加倍。因此,当我们在矩阵中向右或向下移动时,宽度或高度的范围需要加倍。一旦定义了第一层l1,1的范围,我们就可以使用上述规则为矩阵层的其余部分生成范围。
Matrix Nets的主要优点是它们允许方形卷积核准确地收集有关不同纵横比的信息。在传统的目标检测模型中,如RetinaNet,需要一个方形卷积核来输出不同的长宽比和尺度。这与直觉相反,因为不同方面的边界框需要不同的背景。在Matrix Nets中,由于每个矩阵层的上下文发生变化,所以相同的方形卷积核可以用于不同比例和长宽比的边界框。
由于目标大小在其指定的层内几乎是均匀的,因此与其他架构(例如FPN)相比,宽度和高度的动态范围更小。因此,回归目标的高度和宽度将变得更容易优化问题。最后Matrix Nets可用作任何目标检测架构、基于锚或基于关键点、one-shot或two-shots检测器。
Matrix Nets 用于基于关键点的检测在CornerNet被提出来的时候,其是为了替代基于锚点的检测,它利用一对角(左上角和右下角)来预测边界框。对于每个角来说,CornerNet可预测热图、偏移量和嵌入。
上图是基于关键点的目标检测框架—— KP-xNet,它包含4个步骤。
下表展示了在MS COCO数据集上的结果:
研究者还比较了新提出的模型与其他模型在不同的backbones上基于参数的数目。在第一张图中,我们发现KP-xNet在所有参数级别上都优于所有其他结构。研究者认为这是因为KP-xNet使用了一种尺度和纵横比感知的体系结构。
论文地址:https://arxiv.org/pdf/1908.04646.pdf
# 架构
# map
# li
# 算法
# https
# 使用了
# 中心点
# 提出了
# 热图
# 所示
# 而非
# 偏移量
# 两类
# 长宽
# 可以分为
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
AI威胁论:超人工智能ASI时代来临,人类如何应对?
教你用AI帮你进行论文选题,快速找到有研究价值的方向
Midjourney怎样加参数调细节_Midjourney参数调整技巧【指南】
打造迷人外表:AI技术揭秘面部美学比例与颜值提升
AI聊天机器人:朋友还是谄媚者?深度解析与实用建议
AI绘画工具怎么用_AI绘画工具使用方法详细指南【教程】
SEO优化利器:利用AI提升标签的关键词密度
Claude怎么用_Claude使用方法详细指南【教程】
利用AI模板高效创建产品需求文档 (PRD)
播客数据深度分析:揭秘全球听众分布及增长策略
CanvaAI抠图怎样调整色彩_CanvaAI色彩校正与滤镜叠加方法【攻略】
Tenorshare AI Bypass:终极AI内容人性化工具深度评测
终极游戏工作站:帝王蝎椅沉浸式体验评测
Lovart AI设计助手:AI驱动设计,零成本开启创意新纪元
AI一键生成原创SEO文章
海外留学资金证明:无银行流水也能成功申请签证的秘诀
2025年10月狮子座运势:事业、爱情与生活指南
10平米房间设计终极挑战:人类 vs AI,DIY极简主义胜出!
百度AI助手入口在哪 怎么找到聊天入口
即梦ai能否生成3D建模参考图_即梦ai3D参考图生成与视角设置【方法】
利用 Google AI 进行图像元数据分析与整理
通义万相做小红书配图怎么用_通义万相做小红书配图使用方法详细指南【教程】
Gemini 与 Google Drive 结合的文件智能检索
啦啦队女孩:青春活力与性感魅力的完美结合
免费AI头像生成终极指南:逼真、个性化、无水印
轻松生成二维码:免费AI工具终极指南
Shopify着陆页:用AI工具快速提升营销效果
DeepSeek如何编写Shell脚本 DeepSeek自动化运维指南
Pearson AI学习工具:高效提升你的数学学习效率
Fiverr网站审计终极指南:免费工具、SEO技巧和实战案例
教你用AI帮你生成一份详细的搬家清单,告别手忙脚乱
百度输入法ai模式怎么关 百度输入法恢复普通模式
tofai官网网页版入口 tofai最新网页版登录链接
AI赋能科研探索:Google Research创新加速科学发现
2025年AI招聘大师班:初学者友好且功能强大
通义千问怎样优化提示词效果_通义千问提示词优化技巧【攻略】
批改网ai检测工具怎样生成改进建议_批改网ai检测工具改进建议查看与应用【攻略】
AI助手高效获取谷歌评论:提升本地商家曝光率的终极指南
找不到百度AI助手入口 最新官网登录入口
AI|直播|话术生成工具有哪些_一键生成带货话术的AI工具推荐
Filmora AI 语音增强和降噪终极指南
AI驱动的Web应用测试:突破QA挑战,提升用户体验
Excel AI:5大免费AI功能提升数据分析效率
AI猴子视频制作终极指南:从入门到网红,轻松上手!
高效赋能:在线健身教练必备的七大工具
使用 DeepSeek 进行网络协议栈分析与优化建议
如何通过 DeepSeek 进行深度神经网络超参数搜索
LogMeIn Resolve:IT 运维知识库的 AI 赋能实践
Midjourney怎样加风格词调质感_Midjourney风格词技巧【指南】
AI图像生成平台深度对比:Midjourney vs. Stable Diffusion
2023-04-09
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。