# 自监督学习
自监督学习
SHMT
SHMT是一种自监督的层次化化妆迁移技术,通过潜在扩散模型实现。
AI设计工具#自监督学习开源
396
1.58 Bit FLUX
1.58-bit FLUX是一种先进的文本到图像生成模型,通过使用1.58位权重(即{-1, 0, +1}中的值)来量化FLUX.1-dev模型,同时保持生成1024x1024图像的可比性能。
图片生成#量化开源
1,656
Sparsh
Sparsh是一系列通过自监督算法(如MAE、DINO和JEPA)训练的通用触觉表示。
研究工具#触觉传感开源
276
Video Foley
Video-Foley是一个创新的视频到声音生成系统,它通过使用均方根(RMS)作为时间事件条件,结合语义音色提示(音频或文本),实现高控制性和同步性的视频声音合成。
AI视频生成#自监督学习开源
432
HOI Swap
优质新品
HOI-Swap是一个基于扩散模型的视频编辑框架,专注于处理视频编辑中手与物体交互的复杂性。
视频编辑#手-物交互
492
Mimicbrush
优质新品
MimicBrush是一种创新的图像编辑模型,它允许用户通过指定源图像中的编辑区域和提供一张野外参考图像来实现零样本图像编辑。
AI图像编辑#零样本学习开源
21.89k
Denseav
DenseAV是一种新颖的双编码器定位架构,通过观看视频学习高分辨率、语义有意义的视听对齐特征。
视频编辑#视听对齐
588
Anitalker
AniTalker是一个创新的框架,它能够从单一的肖像生成逼真的对话面部动画。
AI头像生成#面部表情开源
3,552
AV HuBERT
AV-HuBERT是一个自监督表示学习框架,专门用于音视觉语音处理。
AI语音识别#自监督学习开源
1,284
Miqu 1 70b
Miqu 1-70b是一个开源大规模语言模型,采用了新颖的自我监督学习方法,可以处理各种自然语言任务。
AI模型#GPT开源
3,444
A Vision Check Up
这篇论文系统评估了大型语言模型(LLMs)生成和识别逐渐复杂的视觉概念的能力,并展示了如何使用文本模型训练初步的视觉表示学习系统。
AI学术研究#视觉开源
360