简介
这篇论文研究了视频Transformer表示的概念解释问题。具体而言,我们试图解释基于高级时空概念的视频Transformer的决策过程,这些概念是自动发现的。以往关于基于概念的可解释性的研究仅集中在图像级任务上。相比之下,视频模型处理了额外的时间维度,增加了复杂性,并在识别随时间变化的动态概念方面提出了挑战。在这项工作中,我们通过引入第一个视频Transformer概念发现(VTCD)算法系统地解决了这些挑战。为此,我们提出了一种有效的无监督视频Transformer表示单元(概念)识别方法,并对它们在模型输出中的重要性进行排名。所得的概念具有很高的可解释性,揭示了非结构化视频模型中的时空推理机制和以对象为中心的表示。通过在多样的监督和自监督表示上联合进行这种分析,我们发现其中一些机制在视频Transformer中是普遍的。最后,我们证明VTCD可以用于改善精细任务的模型性能。
截图

产品特色
无监督视频Transformer概念发现
排名视频Transformer概念的重要性
揭示视频Transformer中的时空推理机制和对象表示
流量来源
直接访问 | 48.39% | 外链引荐 | 35.85% | 邮件 | 0.03% |
自然搜索 | 12.76% | 社交媒体 | 2.96% | 展示广告 | 0.02% |
最新流量情况
月访问量
25296.55k
平均访问时长
285.77
每次访问页数
5.83
跳出率
43.31%
总流量趋势图
地理流量分布情况
美国
17.94%
中国
17.08%
印度
8.40%
俄罗斯
4.58%
日本
3.42%
地理流量分布全球图
同类开源产品

Gstory
国外精选
GStory是一个在线视频和图片编辑平台,提供多种智能编辑功能,如背景更换、增强器、水印去除和AI图像生成器。
AI视频编辑#图片编辑

Talking Avatar
Talking Avatar是一款利用人工智能技术,允许用户通过编辑文本来更新旁白,无需重新录制,即可改变声音,包括口音、语调和情感。
AI视频编辑#视频编辑

Sieve Eye Contact Correction
Sieve Eye Contact Correction API 是一个为开发者设计的快速且高质量的视频眼神校正API。
AI视频编辑#视频处理

Video Background Removal
Video Background Removal 是一个由 innova-ai 提供的 Hugging Face Space,专注于视频背景移除技术。
AI视频编辑#背景移除

SLM Survey
SLM_Survey是一个专注于小型语言模型(SLMs)的研究项目,旨在通过调研和测量,提供对这些模型的深入了解和技术评估。
AI学术研究#Transformer

State Of AI Report 2024
优质新品
State of AI Report 2024是由AI领域投资者Nathan Benaich和Air Street Capital共同制作的年度报告,旨在分析AI领域最有趣的发展,并引发关于AI现状及其对未来影响的知情讨论。
AI学术研究#研究报告

Cheating LLM Benchmarks
Cheating LLM Benchmarks 是一个研究项目,旨在通过构建所谓的“零模型”(null models)来探索在自动语言模型(LLM)基准测试中的作弊行为。
AI学术研究#机器学习

Eddie AI
国外精选
Eddie AI是一个创新的视频编辑平台,它利用人工智能技术帮助用户快速、轻松地编辑视频。
AI视频编辑#自定义模型

Voice Pro
Voice-Pro是一个集成的字幕、翻译和文本到语音(TTS)解决方案。
AI视频编辑#TTS
替代品

Video Background Removal
Video Background Removal 是一个由 innova-ai 提供的 Hugging Face Space,专注于视频背景移除技术。
AI视频编辑#背景移除

SLM Survey
SLM_Survey是一个专注于小型语言模型(SLMs)的研究项目,旨在通过调研和测量,提供对这些模型的深入了解和技术评估。
AI学术研究#Transformer

Cheating LLM Benchmarks
Cheating LLM Benchmarks 是一个研究项目,旨在通过构建所谓的“零模型”(null models)来探索在自动语言模型(LLM)基准测试中的作弊行为。
AI学术研究#机器学习

Voice Pro
Voice-Pro是一个集成的字幕、翻译和文本到语音(TTS)解决方案。
AI视频编辑#TTS

Paper Central
优质新品
Paper Central 是 Hugging Face 推出的一个全面、便捷的学术平台,它将arXiv、Hugging Face 论文页、模型、数据集、Space、GitHub 和会议论文集等多个来源的开源学术资源整合在一起,帮助研究人员
AI学术研究#搜索

Elevenlabsdubbinggradio
ElevenLabs Video Dubbing Application 是一个用户友好的界面,用于使用 ElevenLabs API 配音视频。
AI视频编辑#多语言

Portraitgen
PortraitGen是一个基于多模态生成先验的2D肖像视频编辑工具,能够将2D肖像视频提升到4D高斯场,实现多模态肖像编辑。
AI视频编辑#3D肖像

Sciagentsdiscovery
SciAgentsDiscovery 是一个利用多智能体系统和大规模本体知识图谱,自动化科学研究的系统。
AI学术研究#科学研究

AI Youtube Shorts Generator
AI Youtube Shorts Generator 是一个利用GPT-4和Whisper技术的Python工具,它可以从长视频中提取最有趣的亮点,检测演讲者,并将内容垂直裁剪,以适应短片格式。
AI视频编辑#视频编辑
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k