Stable Diffusion 3.5: Novidades, Recursos e Integração com ComfyUI

O Stable Diffusion 3.5 foi lançado como a mais poderosa versão do modelo de geração de imagens da Stability AI. Com diversos avanços em termos de qualidade, personalização e acessibilidade, essa nova versão foi projetada tanto para profissionais quanto para usuários comuns. Este artigo explora as principais características e a integração com a interface ComfyUI.

Modelos Disponíveis no Stable Diffusion 3.5

A versão 3.5 do Stable Diffusion apresenta três modelos principais, cada um com características específicas:

Stable Diffusion 3.5 Large: Com 8 bilhões de parâmetros, este modelo é ideal para uso profissional com resolução de até 1 megapixel.
Stable Diffusion 3.5 Large Turbo: Uma versão otimizada e mais rápida do Large, que gera imagens de alta qualidade em apenas 4 etapas.
Stable Diffusion 3.5 Medium (lançamento em 29 de outubro): Modelo projetado para rodar em hardware de consumo, com 2.5 bilhões de parâmetros e geração de imagens entre 0.25 e 2 megapixels.

Principais Melhorias do Stable Diffusion 3.5

Entre as melhorias mais notáveis do Stable Diffusion 3.5 estão:

Aderência aprimorada aos prompts: A nova arquitetura oferece uma correspondência mais precisa entre o prompt e a imagem gerada.
Flexibilidade na personalização: É possível ajustar facilmente os modelos para fins criativos específicos, com suporte a fine-tuning e LoRA.
Compatibilidade com hardwares comuns: Especialmente o modelo Medium, projetado para rodar de maneira eficiente em hardware de consumo.

Integração com ComfyUI

A ComfyUI agora oferece suporte completo ao Stable Diffusion 3.5, permitindo que os usuários aproveitem fluxos de trabalho baseados em nós para geração de imagens localmente. A interface facilita o controle dos parâmetros de geração e torna o uso dos modelos mais acessível para desenvolvedores e criadores.

Mais detalhes sobre essa integração podem ser encontrados no post oficial do ComfyUI.

Como Usar o Stable Diffusion 3.5 com ComfyUI

Para utilizar os modelos Stable Diffusion 3.5 Large e Large Turbo na ComfyUI, siga os passos abaixo:

Atualize para a versão mais recente do ComfyUI.
Baixe os modelos “Large” ou “Large Turbo” na pasta models/checkpoint.
Baixe também os arquivos clip_g.safetensors, clip_l.safetensors e t5xxl_fp16.safetensors para a pasta models/clip.
Arraste o fluxo de trabalho no ComfyUI e comece a gerar suas imagens.

Customização e Flexibilidade dos Modelos

O Stable Diffusion 3.5 é altamente personalizável, permitindo que cientistas, desenvolvedores e criadores ajustem os modelos para atender às suas necessidades específicas. Suporta otimizações como LoRA e outros ajustes para aprimorar fluxos de trabalho e resultados de geração.

Licenciamento e Disponibilidade

Os modelos do Stable Diffusion 3.5 estão disponíveis sob a Licença Comunitária da Stability AI, que permite o uso gratuito para fins não comerciais e comerciais, desde que a receita anual não exceda $1 milhão. Para organizações maiores, há a opção de obter uma licença empresarial.

Destaques Técnicos do Modelo Large

O Stable Diffusion 3.5 Large é capaz de gerar imagens de até 1 megapixel de resolução, sendo ideal para aplicações profissionais que exigem alta precisão de aderência ao prompt e qualidade visual.

Performance do Stable Diffusion 3.5 Large Turbo

A versão Large Turbo é uma opção otimizada que gera imagens em apenas 4 etapas, garantindo qualidade elevada com maior eficiência de tempo e recursos.

Desempenho do Stable Diffusion 3.5 Medium (lançamento em 29 de outubro)

O modelo Medium, que será lançado em 29 de outubro, foi projetado para oferecer alta qualidade de geração de imagens em hardwares comuns. Ele suporta resoluções entre 0.25 e 2 megapixels, equilibrando qualidade e performance.

Arquitetura e Treinamento dos Modelos

A nova arquitetura do Stable Diffusion 3.5 integra o Query-Key Normalization, que estabiliza o processo de treinamento e simplifica o fine-tuning dos modelos. Com isso, o modelo oferece maior variedade de saídas, permitindo um conjunto mais diverso de resultados visuais.

Suporte à Diversidade nas Saídas

Os novos modelos geram imagens que representam uma ampla gama de estilos e traços faciais, sem necessidade de prompts complexos para variações como tons de pele e características diversas.

Soluções para Problemas de Memória no ComfyUI

Se a geração de imagens falhar devido à insuficiência de RAM, o ComfyUI oferece fluxos de trabalho otimizados com checkpoints como o fp8_scaled, que reduzem o uso de memória. O uso do checkpoint t5xxl_fp16 é recomendado para máquinas com mais de 32GB de RAM.

Segurança e Responsabilidade no Uso

A Stability AI continua comprometida com o uso responsável da IA. O Stable Diffusion 3.5 foi desenvolvido com medidas de segurança para evitar o uso indevido dos modelos, como a geração de conteúdos inadequados ou perigosos.

Conclusão

O Stable Diffusion 3.5 representa um grande avanço em termos de qualidade de geração de imagens, flexibilidade de uso e acessibilidade. Com suporte a fluxos de trabalho profissionais e uso em hardwares comuns, essa nova versão amplia as possibilidades criativas para diversos perfis de usuários. Experimente os novos modelos e compartilhe seu feedback com a comunidade!

Ação da Penguin Random House para Proteger seus Livros do Treinamento de IA

IA e o Mercado de Trabalho: Transformações e Desafios