Multidiffusion代码分析 Multidiffusion代码分析 前言 当我们使用计算机生成图像时,经常会遇到一些困难,例如如何生成高质量、高分辨率的图像,如何控制图像的风格和内容等。近年来,深度学习技术在图像生成领域取得了很大的进展,其中一种流行的方法是使用变分自编码器(VAE)和生成对抗网络(GAN)等模型。然而,这些方法通常需要大量的训练数据和计算资源,而且生成的图像可能会出现一些问题,例如模糊、失真和不连续等。 为了 2023-05-09 #文字生成图片
MXnet-arcface数据集准备 众所周知,mxnet是一个沐神主导开发的一个深度学习框架,之前听李沐的讲论文时也听他说过很多次,但是已知没有机会使用,最近接触了一个项目,有机会感受了一些mxnet,但是也踩了很多坑。所有需要的脚本文件可以在https://github.com/StudyingLover/menet-Arcface-tools下载 image.png mxnet 的数据与别处的是不同的,他的训练集是两个文件, 2023-05-08 工具
ControlNet训练和微调自己数据集 Learn to train and fine-tune ControlNet with your own datasets using detailed guides and scripts on StudyingLover's blog. 2023-04-27 #文字生成图片
I3D笔记 I3D笔记 I3D是一个视频理解模型,采用双流网络的架构,他的核心贡献是提出了如何对2d网络进行膨胀操作,同时提出了一个新的数据集 Kinetics 工作回顾 image.png 在以前,视频理解有三种做法 1. LSTM 2. 3D ConvNets 3. Two-Stream Networks(双流网络) Two-Stream Inflated 3D ConvNets 这篇文章提出的模型被 2023-04-23
clip_interrogator教程 clip_interrogator教程 文字生成图片是近年来多模态和大模型研究的热门方向,openai提出的CLIP提供了一个方法建立起了图片和文字的联系,但是只能做到给定一张图片选择给定文本语义最相近的那一个,实际项目开发中我们总是需要从一张图片获取描述,感谢社区的活力,clip-interrogator应运而生。 受限于clip-interrogator 等于没有的文档,就有了这篇文章来写一些 2023-04-22 #文字生成图片
ControlNet代码改造计划 虽然现在webui已经支持了ControlNet,但是如果我们需要单独抽出来ControlNet做一些项目就需要对ControlNet进行改造。同时我也想加入一些开源的工具让ControlNet更加有趣,例如clip_interrogator. 关于什么是Canny,Hough,可以看北邮鲁鹏老师的课程计算机视觉(本科)北京邮电大学 鲁鹏 如果你想在webui使用ControlNet,可以看我之前 2023-04-21 #文字生成图片
Segment Anything笔记 Segment Anything笔记 Segment Anything project是一个用于图像分割的新任务、模型和数据集。在他刚出来的那一天,知乎等平台就已经高呼CV已死。为了这个项目,作者创建了迄今为止最大的分割数据集,1100万张在10亿次授权且尊重隐私的图像上的数据集。模型也被设计和训练成了promptable,就是说可以给他一些提示。作者在多个数据集测试了他的结果并认为结果令人满意。 2023-04-07 笔记 #多模态 #图像分割
Imagic笔记 Imagic笔记 先前的工作大多数方法目前仅限于以下一种:特定的编辑类型(例如,对象叠加,样式转换),合成生成的图像,或需要一个共同对象的多个输入图像。文章作者展示了将复杂的基于文本的语义编辑应用于单个真实图像的能力。与之前的工作相反,这篇文章提出的方法只需要一个输入图像和一个目标文本(所需的编辑)。它生成一个与输入图像和目标文本一致的文本嵌入,同时微调扩散模型以捕获特定于图像的外观。 扩散模型是 2023-03-29 笔记 #文字生成图片
UE,Unity和WebGL技术对比 UE,Unity和WebGL技术对比 随着科技的不断进步和数字化时代的到来,元宇宙(Metaverse)已经成为了人们对未来虚拟世界的向往和探索。构建一个具有真实感、互动性和无限可能性的元宇宙需要借助于强大的技术平台。UE(Unreal Engine)、Unity和WebGL作为当前最主流的数字娱乐和游戏开发引擎,被广泛应用于游戏、影视等领域。那么在构建元宇宙的过程中,这三种技术平台各自有什么优缺 2023-03-21 #ThreeJS #元宇宙