VectorFlow:结合图像和向量做交通占用和流预测


arXiv论文“VectorFlow: Combining Images and Vectors for Traffic Occupancy and Flow Prediction“,2025年8月9日,清华大学工作。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

预测道路智体的未来行为是自主驾驶中的一项关键任务。虽然现有模型在预测智体未来行为方面取得了巨大成功,但有效预测多智体联合一致的行为仍然是一个挑战。最近,有人提出了occupancy flow fields(OFF)表示法,通过占用网格和流的组合来表示道路智体的联合未来状态,支持联合一致的预测。

这项工作提出一种新的occupancy flow fields预测器,从光栅化交通图像中学习特征的图像编码器,和捕获连续智体轨迹和地图状态信息的向量编码器,二者结合起来,生成准确的占用和流预测。在生成最终预测之前,两个编码特征由多个注意模块融合。该模型在Waymo开放数据集占用和流预测挑战(Occupancy and Flow Prediction Challenge)中排名第三,在遮挡占用率和预测任务(occluded occupancy and flow prediction task)中实现了最佳性能。

OFF表示(“Occupancy Flow Fields for Motion Forecasting in Autonomous Driving“,arXiv 2203.03875,3,2025)是一种时空网格,其中每个网格单元包括 i)任何智体占用单元的概率 和 ii)表示占用该单元智体运动的流。其提供了更好的效率和可扩展性,因为预测occupancy flow fields的计算复杂性与场景中道路智体的数量无关。

如图是OFF框架图。编码器结构如下。第一级接收所有三种类型的输入点,并用PointPillars启发的编码器进行处理。交通灯和道路点直接放置在网格中。智体在每个输入时间步t的状态编码是,从每个智体BEV框内均匀采样固定大小的点网格,并把这些点与相关智体状态属性(包括时间t的one-hot编码)放置在网格。每个pillar为其包含的所有点输出一个嵌入。解码器结构如下。第二级接收每个pillar嵌入作为输入,并生成每个网格单元占用和流预测。解码器网络基于EfficientNet,用EfficientNet作为主干来处理每个pillar嵌入得到特征映射(P2,…P7),其中Pi从输入中下采样2^i。然后用BiFPN网络以双向方式融合这些多尺度特征。然后,用最高分辨率特征映射P2在所有时间步回归所有智体类K的占用和流预测。具体地,解码器为每个网格单元输出一个向量,同时预测占用和流。

针对本文,做以下问题设置:给定场景中交通智体1秒的历史和场景上下文,如地图坐标,目标是预测 i)未来观察到的占用率,ii)未来遮挡的占用率,以及 iii)在一个场景中未来8个路点上所有车辆的未来流,其中每个路点覆盖1秒的间隔。

将输入处理为光栅化图像和一组向量。为了获得图像,在给定观察智体轨迹和地图数据的情况下,相对于自动驾驶汽车(SDC)的局部坐标,在过去的每个时间步创建一个光栅化网格。为了获得与光栅化图像一致的向量化输入,遵循相同的变换,相对于SDC的局部视图,旋转和移动输入智体和地图坐标。

编码器包括两部分:编码光栅化表示的VGG-16模型,和编码向量化表示的VectorNe模型。通过交叉注意模块将向量化特征与VGG-16最后两步的特征进行融合。通过FPN-式样网络,融合后的特征上采样到原始分辨率,作为输入的光栅化特征。

解码器是单个2D卷积层,将编码器输出映射到occupancy flow fields预测,该预测包括一系列8网格图,表示未来8秒内每个时间步的占用和流预测。

如图所示:

用torchvision的标准VGG-16模型,作为光栅化编码器,并遵循VectorNet(代码https://github.com/Tsinghua-MARS-Lab/DenseTNT)的实现。VectorNet的输入包括 i)一组形状为B×Nr×9的道路元素向量,其中B是批处理大小,Nr=10000是道路元素向量的最大数,最后一个维度9表示每个向量和向量ID中两个端点的位置(x,y)和方向(cosθ,sinθ);ii)一组形状为B×1280×9的智体向量,包括场景中最多128个智体的向量,其中每个智体具有来自观察位置的10个向量。

遵循VectorNet,首先根据每个交通元素的ID运行局部图,然后在所有局部特征上运行全局图,获得形状为B×128×N的向量化特征,其中N是交通元素的总数,包括道路元素和智体。通过MLP层将特征的大小进一步增加四倍,获得最终的向量化特征V,其形状为B×512×N,其特征大小与图像特征的通道大小一致。

VGG每个级的输出特征表示为{C1、C2、C3、C4、C5},相对于输入图像和512隐藏维,跨步长(strides)为{1、2、4、8、16}像素。通过交叉注意模块将向量化特征V与形状为B×512×16×16的光栅化图像特征C5融合,获得相同形状的F5。交叉注意的query项是图像特征C5,扁平为有256个令牌(tokens)的B×512×256形状,Key和Value项是具有N个令牌的向量化特征V。

然后在通道维上连接F5和C5,通过两个3×3卷积层,获得形状为B×512×16×16的P5。P5通过FPN风格的2×2上采样模块做上采样并与C4(B×512×32x32)连接,生成和C4一样形状的U4。之后在V和U4之间执行另一轮融合,遵循相同的程序,包括交叉注意,获得P4(B×512×32×32)。最后,P4由FPN式样网络逐渐上采样,并与{C3,C2,C1}连接,生成形状为B×512×256×256的EP1。将P1通过两个3×3 卷积层,获得形状为B×128×256的最终输出特征。

解码器是单个2D卷积层,输入通道大小为128,输出通道大小为32(8个路点×4个输出维度)。

结果如下:


# 未来  # 相对于  # 景中  # 令牌  # 占用率  # 并与  # 将向  # 是一个  # 是一种  # 交通灯 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 途牛旅游AI怎样设置抢票提醒_途牛AI抢票提醒时间与频率设置【方法】  Claude怎么用新功能代码调试_Claude代码调试使用【方法】  DeepSeek金融数据分析教程 DeepSeek量化交易策略开发  PixianAI抠图如何导出PSD_PixianAI分层导出与PSD保存设置【实操】  百度AI对话助手入口 智能聊天机器人入口  AI电商网站搭建:CSV到WooCommerce全流程指南  AI驱动的Web应用测试:突破QA挑战,提升用户体验  免费涨粉秘籍:Instagram快速提升技巧,告别粉丝流失  百度AI搜索怎么用语音提问_百度AI搜索语音输入与识别优化【指南】  ChatGPT助力Instagram Reels脚本创作:提升内容质量  AI vs. 人工书籍教练:哪个更适合你?终极指南  3步教你用AI将你的照片变成乐高积木风格  Midjourney怎么用一键生成海报_Midjourney海报生成教程【方法】  AI写作鱼如何一键生成情书_AI写作鱼情书生成与浪漫度调整【步骤】  kimi生成ppt怎么编辑文字_kimi编辑文字后怎么保存  识别脱水警告信号:专家解读与健康指南  AI Agent:颠覆传统工作模式的关键力量  AI婴儿播客视频制作终极指南:免费工具与步骤  高效赋能:在线健身教练必备的七大工具  VHEER AI:免费在线AI图像生成器终极指南  5分钟教你用AI将你的研究数据生成可视化的图表和摘要  MAKA AI排版怎样设置动画效果_MAKA AI排版动画添加与参数调整【技巧】  AI如何一键生成PPT大纲_利用AI工具制作演示文稿方法【教程】  ROBLOX Brookhaven:惊悚友谊与校园秘密(2025版)  Artist.ly AI Image Designer: 终极指南  豆包AI里的智能体有什么用_不同类型智能体使用场景介绍  即梦ai怎样生成插画作品_即梦ai插画生成入口与风格选择【教程】  生物医学图像分割:U-Net模型训练与应用详解  免费AI头像生成终极指南:逼真、个性化、无水印  ChatGPT 4o 辅助学生复习 GRE 词汇的方法  AI落地页优化:3个技巧,转化率飙升!  Claude怎样用提示词控制输出长度_Claude输出长度设置【教程】  AI视频生成器:免费工具,图像转视频和文字转视频  Replika AI:情感慰藉还是虚拟危机?深度剖析与用户反馈  SEO优化利器:利用AI提升标签的关键词密度  Tamilnad Mercantile Bank TMB:如何在线下载账户报表  利用MECLABS AI解决业务难题:实用指南  豆包AI怎么关闭消息推送_通知与提醒管理设置教程  服务合同模板:起草、签署和管理指南,提升业务效率  即梦ai能否生成3D建模参考图_即梦ai3D参考图生成与视角设置【方法】  GitHub MCP Server:AI赋能代码管理的未来  通义万相AI绘画怎么用_通义万相AI绘画使用方法详细指南【教程】  教你用AI帮你生成一份详细的搬家清单,告别手忙脚乱  利用豆包 AI 进行个性化旅行 Vlog 脚本设计  GitHub Copilot与Azure AI Foundry模型:加速AI编程实践  Character AI终极指南:构建你的人工智能伴侣,探索无限可能  怎么用AI制作数字人短视频?3步教你创建虚拟主播  VoiceBrigade:AI 赋能,革新语音合成与内容创作  AI问卷调查生成工具有哪些_一键生成调研表单的AI工具推荐  百度输入法ai写作怎么关 百度输入法ai帮写禁用 

 2023-04-09

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.