O DALL-E 2 do OpenAI está ficando livre de concorrência. Por trás dele está um deslocamento de fonte aberta de inteligência artificial e a Stability AI.
A IA (inteligência artificial), capaz de criar imagens a partir de descrições escritas, avançou imediatamente a partir do início de 2021. Naquela época, o OpenAI mostrou resultados surpreendentes com DALL-E 1 e CLIP. A sociedade de código aberto usou o CLIP para vários projetos alternativos ao longo do ano. Então, em 2022, OpenAI abandonou o incrível DALL-E 2, Google ensinou Image e Parti, Midjourney alcançou milhões, e Craiyon inundou as redes sociais com imagens AI.
O Startup Stability AI anunciou agora o lançamento do Stable Diffusion, outro sistema semelhante ao DALL-E 2- que será inicialmente disponibilizado para novos estudiosos e outros conjuntos gradualmente através de um servidor Discord.
Após um estágio de teste, o Stable Diffusion será lançado gratuitamente: o código e um modelo treinado serão lançados como código aberto. Além disso, haverá uma versão hospedada com uma interface web para que os usuários testem o sistema.
Stability AI financia gratuitamente a contraparte DALL-E 2
Stable Diffusion é o resultado da participação entre os estudiosos de Stability AI RunwayML, LMU Munique, EleutherAI e LAION. O coletivo de pesquisa da EleutherAI é conhecido por seus modelos linguísticos de código aberto GPT-J-6B e GPT-NeoX-20B, entre outros, e também faz pesquisas sobre modelos multimodais.
A organização sem fins lucrativos LAION (Large-scale Artificial Intelligence Open Network) forneceu os dados de treinamento com o conjunto de dados de código aberto LAION 5B, cujos acessórios foram filtrados com comentários humanos em uma etapa inicial de testes para produzir o conjunto de dados de treinamento final LAION-Aesthetics.
Patrick Esser, da Runway, e Robin Rombach, da LMU Munique, lideraram o plano baseado em seu trabalho no conjunto CompVis na Universidade de Heidelberg. Lá eles fizeram o amplamente utilizado VQGAN e a Latent Diffusion. Este último foi útil como base para a Stable Diffusion com OpenAI e o inquérito do Google Brain.
Como seria Mona Lisa com um corpo? O DALL-E 2 tem uma resposta
Stable Diffusion(@DiffusionPics)
Stable Diffusion(@DiffusionPics)
14 de agosto de 2022
Stability AI, implementada em 2020, é apoiada pelo matemático e cientista da computação Emad Mostaque. Ele trabalhou como analista para vários fundos de hedge durante alguns anos antes de entrar em trabalhos públicos. Em 2019, ele ajudou a fundar o Symmitree, um plano para reduzir os gastos com smartphone e conexão à Internet para populações desprivilegiadas. Com a Stability AI e sua fortuna privada, Mostaque pretende promover a inteligência artificial de código aberto, descobrindo a sociedade. Seu início de atividades anteriormente secundou a construção do conjunto de dados “LAION 5B”, exemplificando. Para realizar o modelo de disseminação estável, Stability AI deu servidores com 4.000 GPUs Nvidia A100. “Ninguém tem direito a voto, exceto nossos próprios 75 funcionários: nenhum bilionário, nenhum fundo monumental, nenhum governo, ninguém que tenha o controle da empresa ou das empresas que apoiamos.
Somos completamente independentes”, explica Mostaque à TechCrunch. “Planejamos usar nossa computação para racionalizar a inteligência artificial fundacional de código aberto”. Stable Diffusion é um marco de código aberto”. Um teste está atualmente em andamento para o Stable Diffusion, com novas adições sendo distribuídas em ondas. Os resultados, que têm a capacidade de ser vistos no Twitter, exemplificando, apresentam que um verdadeiro adversário para o DALL-E-2 está emergindo. Stable Diffusion é mais versátil que Midjourney, porém tem uma resolução menor que DALL-E 2. | Imagem: Github Ao contrário do DALL-E 2, o Stable Diffusion pode criar imagens de indivíduos e outros assuntos que o OpenAI proíbe no DALL-E 2. Outros sistemas como Midjourney ou Pixelz.ai também têm a capacidade de fazer isso, mas não alcançam uma qualidade comparável à alta pluralidade vista no Stable Diffusion – e nenhum dos outros sistemas são de código aberto.
Já se espera que o Stable Diffusion seja executada em uma única placa gráfica com 5,1 gigabytes de VRAM – trazendo a tecnologia AI ao limite que até agora só estava disponível através de serviços de nuvem. A Stable Diffusion oferece assim aos pesquisadores e partes interessadas sem acesso a servidores GPU a oportunidade de experimentar um modelo moderno de IA generativa. O modelo também deve ser executado em MacBooks com o chip M1 da Apple. Entretanto, a geração de imagens leva vários minutos ao invés de segundos aqui.
O DALL-E 2 do OpenAI recebe uma competição de código aberto, liderada por uma comunidade de código aberto e a Startup Stability AI. | Imagem: Github
A própria Stability AI também quer permitir que as empresas treinem sua variante de Stable Diffusion. Os modelos multimodais estão, portanto, seguindo o caminho anteriormente tomado por modelos de linguagem de grande porte: longe de um único fornecedor e em direção à ampla disponibilidade de numerosas alternativas através de código aberto.
A Runway já está pesquisando a edição texto-para-vídeo habilitada pela Stable Diffusion.
Stable diffusion: Pandora’s box e net benefits
Naturalmente, com acesso aberto e a capacidade de executar o modelo em uma GPU amplamente disponível, a oportunidade de abuso aumenta drasticamente.
“Uma porcentagem de pessoas é simplesmente desagradável e estranha, mas isso é humanidade”, disse Mostaque. “De fato, acreditamos que esta tecnologia prevalecerá, e a atitude paternalista e um tanto condescendente de muitos aficionados da IA é mal orientada ao não confiar na sociedade”.
Mostaque enfatiza, entretanto, que a livre disponibilidade permite à comunidade desenvolver contramedidas.
“Estamos tomando medidas de segurança significativas, incluindo a formulação de ferramentas de ponta para ajudar a mitigar os danos potenciais em toda a liberação e em nossos próprios serviços”. Com centenas de milhares se desenvolvendo neste modelo, estamos confiantes de que o benefício líquido será imensamente positivo e, como bilhões de pessoas usam esta tecnologia, os danos serão negados”.
Mais informações estão disponíveis no github da Stable Diffusion. Você pode encontrar muitos exemplos das capacidades de geração de imagem do Stable Diffusion no sub-divulgação Stable Diffusion. Vá aqui para o beta signup para Stable Diffusion.
Fonte: Stability AI
Nota: Links para lojas on-line em artigos podem ser chamados de links de afiliados. Se você comprar através deste link, a MIXED recebe uma comissão do fornecedor. Para você, o preço não muda.
No Comment! Be the first one.