# 自监督学习

SHMT
SHMT是一种自监督的层次化化妆迁移技术,通过潜在扩散模型实现。
AI设计工具#自监督学习开源
396

1.58 Bit FLUX
1.58-bit FLUX是一种先进的文本到图像生成模型,通过使用1.58位权重(即{-1, 0, +1}中的值)来量化FLUX.1-dev模型,同时保持生成1024x1024图像的可比性能。
图片生成#量化开源
1,656

Sparsh
Sparsh是一系列通过自监督算法(如MAE、DINO和JEPA)训练的通用触觉表示。
研究工具#触觉传感开源
276

Video Foley
Video-Foley是一个创新的视频到声音生成系统,它通过使用均方根(RMS)作为时间事件条件,结合语义音色提示(音频或文本),实现高控制性和同步性的视频声音合成。
AI视频生成#自监督学习开源
432

HOI Swap
优质新品
HOI-Swap是一个基于扩散模型的视频编辑框架,专注于处理视频编辑中手与物体交互的复杂性。
视频编辑#手-物交互
492

Mimicbrush
优质新品
MimicBrush是一种创新的图像编辑模型,它允许用户通过指定源图像中的编辑区域和提供一张野外参考图像来实现零样本图像编辑。
AI图像编辑#零样本学习开源
21.89k

Denseav
DenseAV是一种新颖的双编码器定位架构,通过观看视频学习高分辨率、语义有意义的视听对齐特征。
视频编辑#视听对齐
588

Anitalker
AniTalker是一个创新的框架,它能够从单一的肖像生成逼真的对话面部动画。
AI头像生成#面部表情开源
3,552

AV HuBERT
AV-HuBERT是一个自监督表示学习框架,专门用于音视觉语音处理。
AI语音识别#自监督学习开源
1,284

Miqu 1 70b
Miqu 1-70b是一个开源大规模语言模型,采用了新颖的自我监督学习方法,可以处理各种自然语言任务。
AI模型#GPT开源
3,444

A Vision Check Up
这篇论文系统评估了大型语言模型(LLMs)生成和识别逐渐复杂的视觉概念的能力,并展示了如何使用文本模型训练初步的视觉表示学习系统。
AI学术研究#视觉开源
360
精选AI产品推荐

Nocode
中文精选
NoCode 是一款无需编程经验的平台,允许用户通过自然语言描述创意并快速生成应用,旨在降低开发门槛,让更多人能实现他们的创意。
开发平台#应用开发
912

Listenhub
优质新品
ListenHub 是一款轻量级的 AI 播客生成工具,支持中文和英语,基于前沿 AI 技术,能够快速生成用户感兴趣的播客内容。
音频生成#AI
348

Lovart
国外精选
Lovart 是一款革命性的 AI 设计代理,能够将创意提示转化为艺术作品,支持从故事板到品牌视觉的多种设计需求。
AI设计工具#创意工具
1,128

Fastvlm
FastVLM 是一种高效的视觉编码模型,专为视觉语言模型设计。
AI模型#图像处理开源
564

Smart PDFs
国外精选
Smart PDFs 是一个在线工具,利用 AI 技术快速分析 PDF 文档,并生成简明扼要的总结。
文章摘要#AI
984

Keysync
KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。
视频编辑#视频处理开源
480

Anyvoice
AnyVoice是一款领先的AI声音生成器,采用先进的深度学习模型,将文本转换为与人类无法区分的自然语音。
音频生成#文本转语音
26.38k

Liblibai
中文精选
LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。
AI模型#图像生成
344.42k