Videoprism
- 视频分类、定位\n- 视频检索\n- 视频字幕生成\n- 视频问答\n- 科学视频分析
总访问量: 1,016,722
占比最多地区: US(34.33%)
2,352
简介
VideoPrism是一个通用的视频编码模型,能够在各种视频理解任务上取得领先的性能,包括分类、定位、检索、字幕生成和问答等。其创新点在于预训练的数据集非常大且多样,包含3600万高质量的视频-文本对,以及5.82亿带有嘈杂文本的视频剪辑。预训练采用两阶段策略,先利用对比学习匹配视频和文本,然后预测遮蔽的视频块,充分利用不同的监督信号。一个固定的VideoPrism模型可以直接适配到下游任务,并在30个视频理解基准上刷新状态最优成绩。
截图
产品特色
- 预训练数据包含3600万高质量视频-文本对,5820万带嘈杂文本的视频剪辑,数据规模最大、质量最高 - 采用两阶段预训练策略,对比学习匹配视频和文本,预测遮蔽的视频块 - 一个固定模型直接适配下游任务,无需调参和微调 - 在30个视频理解基准上刷新最优记录
流量来源
直接访问36.66%外链引荐51.51%邮件0.09%
自然搜索8.66%社交媒体2.81%展示广告0.27%
最新流量情况
月访问量
1090.08k
平均访问时长
47.96
每次访问页数
1.97
跳出率
56.41%
总流量趋势图
地理流量分布情况
美国
34.33%
印度
8.31%
英国
3.59%
澳大利亚
2.75%
加拿大
2.46%
地理流量分布全球图