GERANDO IMAGENS PARA USO PROFISSIONAL — Com que ferramenta de IAG eu vou ?
A TAREFA: produzir uma imagem para um peça publicitária de um produto de beleza, só que usando inteligência artificial generativa, a IAG.
Tá bom , todo mundo pode brincar à vontade com as ferramentas de inteligência artificial generativa. É um grande ecossistema, em veloz expansão e, dentro do modelo de negócios mais comum entre as plataformas digitais, o freemium, você pode testar bastante, ou seja, começar free e só depois, se realmente perceber valor naquilo, virar premium e começar a pagar algo.
Entretanto, para uso profissional as considerações vão muito além do que é de graça ou pago. Há que se considerar vários outros fatores e talvez o principal deles seja a capacidade daquela ferramenta te entregar o que uma boa implementação de IAG oferece : ganhos de produtividade. Sim, fazer coisas que você já faz sozinho, só que com mais volume, variedade e velocidade.
Esqueça as promessas fáceis de ficar milionário ou se jogar numa rede, tomando sol e deixando a IAG fazer tudo pra você no automático. O YouTube está cheio de vídeos assim, mas é bom que você entenda que a maior parte do que está ali (óbvio que tem coisa séria) é feita por gente que não usa profissionalmente e não testa extensivamente. O material é produzido porque a IA virou um megatrend e botar conteúdo sobre ela no canal atrai interesse e views, muitos , inclusive o seu , que ajuda o dono a monetizar em cima da sua curiosidade, mesmo sabendo muito pouco daquilo.
Como pesquisador e professor exploro as possibilidades de uso das diversas tecnologias emergentes que temos hoje à disposição e tento entender melhor suas possibilidades de aplicação bem como as dificuldades, desafios e riscos no seu uso. Meu foco está nas aplicações para uso profissional ou organizacional e se tem interesse nisso vamos em frente.
A primeira coisa que é sempre bom ressaltar é que inteligência artificial é um campo enorme, com décadas de desenvolvimento e várias subáreas. A IA generativa, cujo produto mais famoso é o CHATGPT, é realmente mais recente, apesar de ter sido construída a partir de todo um conhecimento anterior dessa tecnologia.
Quando começo a ler algum texto sobre o tema normalmente vejo muita gente confundindo as coisas e botando no mesmo saco ferramentas e funcionalidades muito diferentes. Inclusive se referindo aos diversos produtos, aplicações e plataformas que usam a tecnologia como “as IAs”. Se considerarmos que IA é um campo de conhecimento, ao me referir a ela prefiro usar o singular e colocar no plural tudo que é desenvolvido a partir dela. Começamos por ai .
De que IA estamos falando
Seria bom também que os milhares de experts em IA que apareceram nos últimos tempos identificassem, antes de qualquer conversa, de que IA estão falando, porque há diferenças muito importantes, principalmente entre a IA Generativa e outras subáreas. Adaptei abaixo, para facilitar, um gráfico de Azhar Shah (2024) que explica como os processos da IA que chamamos de discriminativa (ou preditiva) são diferentes da generativa e , para não estender demais : são dois extremos, um mais próximo da busca por precisão e outro por criatividade, a IAG.
Mas voltando ao uso real, como já escrevi muito sobre o CHATGPT e ferramentas de geração de texto , quero aqui compartilhar um experimento, a partir de um cenário bem comum para quem trabalha , por exemplo, no marketing e na propaganda: produzir imagens publicitárias para uma campanha ou uma peça de divulgação de determinado produto ou marca.
Como profissional do ramo é bem provável que você já tenha ouvido falar e talvez já esteja até usando o CHATGPT . Mas quando se trata de imagens também existem diversas soluções e o que vou demonstrar aqui é, partindo de um job fictício, tentar apresentar possibilidades e resultados.
A inspiração do que fiz surgiu do texto de Monge (2024) que fez um comparativo entre duas versões do Adobe Firefly , a 2.0 e a 3.0. Ele criou um prompt (uma solicitação em texto para a ferramenta) e comparou os resultados .
O pedido do autor (prompt), traduzido para o português, ficaria assim:
Uma linda holandesa, modelo de cosméticos, sobre um fundo simples de estúdio de cor sólida nas cores rosa claro e bege com tons brancos. A pele clara exala um brilho natural e revela detalhes de textura fina. Em uma foto frontal, ela segura uma pequena bola de base e aplica o creme em uma das bochechas. Seu cabelo cobre suavemente metade de sua cabeça e seu sorriso era gentil.
Partindo então da ideia de testar outras ferramentas de IAG, além do Firefly, e ver como elas se saem, passei a mesma tarefa para uma lista com outras opções. O resultado na plataforma da Adobe, o artigo do autor que citei já demonstra. Mantive o pedido com inspiração holandesa para que os resultados dele também pudessem entrar na nossa lista de comparação. Não se preocupe, lá no final, dou uma alterada nisso.
Ferramentas do Teste:
a) CHATGPT que agora, sendo multimodal, opera com o Dall-e , o modelo de geração de imagens da OPENAI;
b) COPILOT da Microsoft, que em tese roda o mesmo modelo da situação anterior mas, como verão, gerou imagens diferentes;
c) LEONARDO.AI , plataforma que opera com várias funcionalidades usando imagens com um sistema parcialmente gratuito que você pode usar sem custo por um bom tempo;
d) MIDJOURNEY , a referência da IAG quando o assunto é geração de imagens.
É importante ressaltar que existem várias outras possibilidades mas o principal objetivo aqui não é necessariamente encontrar a melhor imagem, mas discutir que aspectos observar quando for preciso comparar possibilidades a partir de uma tarefa real.
Vou primeiro apresentar os resultados e depois faço os comentários. Observo que, para todas as ferramentas passei o prompt em inglês para garantir isonomia já que algumas não operam em português por enquanto .
Além disso estou apresentando o primeiro resultado obtido com cada uma delas.
É importante ressaltar que o desenvolvimento dos prompts ou prompt design normalmente requer algum esforço de tentativa e erro, mas para preservar o objetivo original de usar a IAG para fazer coisas com mais velocidade, oferecendo o resultado em menos tempo, e também responder ao cliente com mais opções (volume) e variações, mantive para o teste apenas o primeiro resultado de cada ferramenta.
DALL-E no CHATGPT
O primeiro a ser testado foi o próprio CHATGPT que, como já expliquei, utiliza o modelo Dall-e da empresa que o criou, a OPENAI.
Neste caso uma observação é que, por esta via, a solicitação gerou apenas uma possibilidade, o que sim pode ser alterado, mas te daria um pouco mais de trabalho e exigiria também mais tempo para melhorar neste aspecto (variedade).
COPILOT
O teste no COPILOT foi uma boa surpresa. Ele é gratuito, em teoria usa o mesmo modelo de geração de imagem da OPENAI, o Dall-e , mas o resultado em termos de realismo e qualidade de imagens foi bem superior, inclusive entregando, quatro imagens, duas únicas e duas com duas possibilidades cada , seis ao todo, o que ajuda na questão de ter rapidamente várias opções a partir do uso da ferramenta de IAG.
LEONARDO
A plataforma LEONARDO gerou imagens muito realistas e interessantes, o que considerando o uso publicitário pode ser bem útil. Contudo, como vou comentar à frente, não executou exatamente o que foi pedido.
MIDJOURNEY
A ferramenta MIDJOURNEY produziu um primeiro resultado com quatro opções de imagens (é o padrão da plataforma), com um nível de realismo excelente e, em todas, compreendendo os detalhes do pedido inicial que indicava que a modelo tinha que ter passado o produto numa das bochechas, coisa que algumas das outras plataformas usadas no teste não conseguiu fazer.
CONSIDERAÇÕES PARA AVALIAÇÃO
Resumindo o que é possível aprender com este experimento, é importante ressaltar que, para um trabalho como o que hipoteticamente recebemos, a melhor solução parece ser a que:
a) Gera imagens com alto nível de realismo
b) Oferece já de início mais de uma opção de resultado
c) Demonstra que o modelo é capaz de compreender os detalhes do pedido e agir de acordo.
Essa última condição no ambiente de uso profissional parece ser muito mais importante, inclusive do que a questão do custo, se é pago ou não.
Nas organizações os potenciais ganhos de produtividade são os que realmente podem justificar o uso de ferramentas de IAG, principalmente no papel que melhor lhes cabe, como assistentes, para gerar insights , testar ideias e prototipar rapidamente.
Produzir material final é outra conversa e, na prática, para cada processo com uso de IAG tem muito trabalho humano, entendendo o que se deseja conseguir, desenhando os prompts, testando e aprimorando até chegar ao produto que vai ser efetivamente utilizado. É por isso que hoje, treinamento e atualização profissional são fundamentais. É o que fazemos no NID, treinamento, consultoria e desenvolvimento. Esta última vertente já com um conjunto enorme de aplicações prontas para utilização.
Supõe-se que, no uso profissional, apenas utilizar ferramentas gratuitas não deve ser a principal prioridade que normalmente é mais importante para quem faz uso recreativo ou de teste apenas. Mesmo assim, é importante saber que das plataformas que testei apenas Midjourney não oferece testes gratuitos de forma extensiva como as outras.
Existem várias outras questões envolvidas na geração de imagens por IAG que, pelo escopo desse artigo, não teria como comentar agora. O uso comercial destes produtos, as questões de direitos autorais e de enviesamento dos modelos, replicando nos resultados os padrões que são mais frequentes na sua base original de treinamento. Se quiser saber mais sobre isso, vou deixar aqui o link para um livro meu , com download gratuito, do início do ano passado, onde descrevo com mais detalhes as possibilidades e problemas no uso da IAG.
Além dos resultados iniciais, todas as ferramentas podem gerar resultados melhores justamente a partir do aperfeiçoamento dos pedidos dos usuários. No prompt design das ferramentas de imagem toda uma gramática própria que entende , por exemplo, os elementos da linguagem da fotografia e do audiovisual, como planos, ângulos, condições de luz, lentes e até câmeras diferentes, entre outros, está disponível para quem tem o treinamento necessário.
Como para mim a ferramenta Midjourney ainda é a melhor, no momento, para o tipo de tarefa a que nos propomos neste teste, vou repetir abaixo a imagem que inseri no início do post e que representa uma seleção mais diversa de imagens. Para isso, apenas bastou substituir a origem “holandesa” da modelo do prompt original, inserindo variações étnicas via texto, o que, com certeza, gerou um conjunto de opções melhor e com excelente qualidade.
Observe que mudei apenas um parâmetro do pedido inicial e poderia ter feito muitas outras alterações, em vários outros aspectos, para obter resultados mais assertivos e pertinentes ao trabalho que eventualmente tivesse que realizar .
O limite basicamente é a imaginação. Escolha a sua ou crie você mesmo o que achar melhor.