Todos os Artigos

Artigos

Cover Image

Baseado em prompts - O nascimento de um novo modelo de interacção Homem-máquina

Março 19, 2024

A forma como o Homem interage com a tecnologia tem evoluído significativamente ao longo de décadas - e ainda está em constante evolução. A ascensão da inteligência artificial (IA) e do processamento de linguagem natural (PLN) revelou uma nova forma de interacção - os prompts (instruções em Português). 

Como chegámos até aqui 

No início, a interacção com os computadores era baseada em texto. Os utilizadores digitavam comandos específicos num teclado para realizar tarefas. As interfaces de linha de comandos (ILC) restringiam a utilização de computadores a utilizadores experientes. Hoje, este tipo de interacção está reservada a developers de software

Terminal DEC VT100  Fonte: Wikipedia

As interfaces gráficas desenvolvidas durante os anos 70 e 80 (com o Xerox PARC, a Apple’s Lisa e o Macintosh) foram um grande passo para tornar os computares acessíveis a um maior número de pessoas. Os utilizadores passaram a ser capazes de interagir com um sistema de computador através de indicadores ou representações (gráficos) como ícones, janelas ou menus. Para além de um simples teclado, começaram a usar dispositivos apontadores (como o rato) para operar a interface.

Apple Lisa (1983) Fonte: Wikipedia

A grande revolução seguinte aconteceu no início dos anos 2000 com a popularização da tecnologia touchscreen, após o lançamento do primeiro iPhone da Apple. Com ele, uma forma mais natural de interagir com as máquinas. Desde tocar, comprimir ou deslizar - uma série de acções tornaram-se possíveis.

IBM Simon (1994) Fonte: Wikipedia  | 1ª geração do iPhone (2007) Fonte: Wikipedia

Depois das interacções baseadas no toque avançámos para as baseadas na voz. A voz começou a ser uma forma de interacção em 1997 com o software de reconhecimento de voz, Dragon Naturally Speaking. No entanto, só se tornou uma forma generalizada de interacção computacional recentemente com o aparecimento dos assistentes de voz como a Siri da Apple, a Alexa da Amazon ou o Assistente Google. Podemos agora usar a nossa voz para criar e editar documentos, abrir aplicações ou ficheiros, colocar questões.

Echo Dot (2022) Fonte: Amazon

Mais recentemente, uma nova forma de interacção tem vindo a ser desenvolvida, desta vez baseada em gestos. Tecnologias como o Leap Motion e o Microsoft Kinect eliminam a necessidade de contacto físico directo. Os sistemas têm câmaras e sensores que detectam movimentos das mãos e do corpo, ou até expressões faciais, e interpretam-nos como input (utilizando algoritmos de machine learning). A indústria dos videojogos está a aproveitar isso para permitir aos jogadores uma experiência mais imersiva em mundos virtuais. Apesar das interacções baseadas nos gestos terem vindo para ficar, ainda não se tornaram tão populares quanto as baseadas no toque, pois a precisão e a capacidade de resposta ainda precisam de algumas melhorias.

Interacções baseadas em gestos aplicadas na indústria automóvel

Todas estas formas de interacção têm uma coisa em comum. Exigem que falemos com as máquina na sua linguagem, tendo que aprender sintaxe e comandos complexos para realizar as tarefas. Estamos agora a testemunhar uma nova forma de interagir com as máquinas que requere apenas uma conversa - prompting.

Compreender o prompting

Em vez de linhas de comando complicadas ou perceber os ícones e menus da interfaces de utilizador, esta nova forma permite-nos interagir com as máquinas usando simplesmente a linguagem com que estamos familiarizados. 

Tudo começou em 2020 quando a OpenAI fez um avanço significativo na IA com o lançamento do ChatGPT-3. Este sistema é capaz de processar e gerar linguagem de formas mais complexas que esforços anteriores. Podemos pedir um itinerário de férias, escrever uma pequena história, uma publicação de blog, refrasear ou sumarizar textos, escrever piadas, ter conversas sobre praticamente qualquer tópico. E como se o texto não bastasse, voltaram-se para a geração de imagens a partir de inputs de texto - DALL-E. Entretanto, outros concorrentes entraram em cena - Midjourney, Stable Diffusion, Imagen, etc. Quando temos texto e imagem, o que se segue? Vídeo, claro. O Sora promete ser o novo avanço da OpenAI. Um prompt de texto do utilizador irá criar vídeos realísticos e imaginativos (até 1 minutos por agora). 

O que é um prompt?

Um prompt é uma pergunta ou um input fornecido a um sistema de IA para orientar a sua resposta ou gerar um output específico.

Prompts bem elaborados direccionarão um modelo de IA para o resultado específico que desejamos obter. A qualidade dos prompts irá determinar a qualidade da resposta/resultado.

Melhores prompts > Melhores resultados

Se soubermos como criar as perguntas ou instruções certas para guiar os modelos de IA, especialmente os modelos largos de linguagem (MLL), iremos obter resultados mais precisos, relevantes e úteis.

Um prompt eficaz permite-nos usar plenamente as capacidades de IA generativa. Isto pode ser conseguido ao fornecer o máximo de contexto possível e usando uma linguagem específica e detalhada.

Usámos o Playground, um criador de imagens IA grátis, para gerar as seguintes imagens. Um prompt como “gera uma paisagem” irá produzir um resultado genérico (imagem à esquerda). Contudo, se o redefinirmos e incluirmos instruções mais precisas sobre características, formas, texturas, padrões e estilos estéticos, iremos provavelmente obter um melhor resultado. Para a segunda imagem usamos o prompt - “gera uma paisagem serena com montanhas no fundo, um lago azul calmo em primeiro plano, um sol radiante, uma vila de estilo italiano na margem do lago” (imagem à direita).

Imagens geradas por IA através do Playground

A qualidade dos dados de input pode influenciar a capacidade do modelo dar resultados específicos e claros, ajudando assim a reduzir a ambiguidade e resultados imprecisos. 

Uma carreira ou habilidade do futuro?

À medida que as ferramentas geradoras de IA entram na nossa vida diária, questionamo-nos qual será o papel do prompting num futuro próximo e a longo prazo. A maioria do especialistas afirma que o prompting irá provavelmente tornar-se uma habilidade necessária e valiosa para trabalhar em indústrias onde obter resultados de geradores de IA pode aumentar a produtividade (sendo o UX design uma delas). De facto, a prompt engineering tem vindo já a emergir com uma nova função de IT. Os prompt engineers estão a ser contratados (e a receber bem) para que os sistemas de IA produzam exactamente o que é pretendido e desbloquear o todo o seu potencial. Contudo, há especialistas que sugerem que “os sistemas de IA irão ficar mais intuitivos e aptos a compreender a linguagem natural, reduzindo a necessidade de prompts meticulosamente projectados”.

Para alguém que não tem muita experiência com prompts ou grande conhecimento de IA, existem já formas de melhorar prompts. O ChatGPT-4 Prompt Perfect Plugin re-escreve automaticamente o nosso input para obter resultados mais precisos e claros, escrevendo “perfect” no final do prompt. Outros geradores de IA têm funcionalidades semelhantes.

Como exemplo, brincámos um pouco com o Playground e escrevemos o seguinte prompt:

“Revolução de IA. Usa o quadro A Liberdade Guiando o Povo de Eugène Delacroix como inspiração”

Também carregámos a imagem do quadro para ser usado como inspiração, e depois activámos a opção “Expandir Prompt”. Gerou uma imagem com de acordo com o seguinte prompt:

“Revolução de IA, inspirado por ´A Liberdade Guiando o Povo´ de Eugène Delacroix, com robots e tecnologia no meio de uma barricada moderna, figuras simbólicas no primeiro plano representando os diferentes aspectos da IA, robots semelhantes a humanos com expressões de determinação, a bandeira icónica substituída por um padrão com padrão de circuito, cenário de uma paisagem urbana distópica, contrastes de claro-escuro, fumaça da queima de detritos tecnológicos, pintura digital, ultra-realística, iluminação dramática.”

Um prompt com menos de duas linhas foi expandido para um muito mais detalhado. Com essa base, podíamos depois fazer os ajustes que considerássemos mais convenientes para o nosso objectivo final. Muito mais fácil do que escrever tudo desde o início. A imagem que obtemos está a ilustrar a próxima secção. 

Uma revolução em andamento

Imagem gerada por IA (Playground)

O campo da IA generativa continua a progredir a um ritmo impressionante, e com ele surge um conjunto único de desafios e oportunidades. 

Se gerar conteúdo de vídeo realista se tornar fácil para todos os que souberem criar um bom prompt, existe o risco de criar inadvertidamente vídeos que violem os direitos de autor existentes e coloquem questões éticas. A possível criação de vídeos deepfake pode levar à disseminação de informação errada e à desinformação (particularmente na política), enquanto lutamos para distinguir o falso do real.

Ultimamente temos ouvido relatos de MLL gerarem informação falsa e transmiti-la como se fosse verdadeira - as chamadas alucinações de IA. Tal pode ter consequências significativas quando a IA é aplicada nos cuidados de saúde, na segurança, e na gestão de dados, portanto, devemos estar atentos a estes fenómenos.

Também começamos a questionar o futuro de websites e apps. Quando pedimos a um modelo de IA para resumir um trabalho que temos que estudar para um teste, criar uma imagem para podermos usar num design, ou dar-nos uma lista dos melhores restaurantes nas redondezas, estamos a usá-lo como uma ferramenta para reunir e apresentar-nos conhecimento (que podemos ou não considerar confiável). Contudo, os MLL podem ter a capacidade de usar eles próprios as ferramentas. Então, para além de lhes pedirmos um itinerário para as próximas férias de Verão, podemos pedir para reservar os voos, um hotel, o transfer e bilhetes para as principais atracções. Podemos até refinar o nosso pedido e definir que queremos chegar pela manhã, ficar num hotel de 4 estrelas com aspecto moderno, tudo dentro do nosso orçamento. Poderíamos depois confirmar as opções que nos são dadas ou fazer as mudanças necessárias. Neste caso, eliminaríamos a necessidade de visitar todos estes websites individualmente - agregadores de pesquisa, agências de viagens, companhias aéreas, museus, etc. Tudo nos seria apresentado mediante uma conversa eficaz com o modelo de IA. Em última análise, removendo a necessidade de apps e websites. As empresas iriam simplesmente alimentar os MLL com a informação que normalmente apresentam no seu website ou app

Embora isso ainda seja apenas uma possibilidade, por agora os negócios estão a começar a preocupar-se em como a Experiência Generativa de Pesquisa do Google pode impedir os utilizadores de visitarem os seus websites. Sem dúvida que esta irá revolucionar a história dos motores de pesquisa. Em vez da típica lista de hiperligações azuis que obtemos como resultado da pesquisa, serão apresentados alguns parágrafos gerados por IA com informação chave, bem como algumas hiperligações para informação adicional.

Exemplo de como os resultados de pesquisa são apresentados com a Pesquisa Generativa do Google. Apresentada em Maio de 2023, é ainda uma experiência, e está apenas disponível nos EUA. Fonte: Google

Embora não possamos deixar de nos perguntar sobre os desafios que o rápido desenvolvimento da IA nos apresentará, também não podemos ignorar as oportunidades que isso pode trazer.

Existe certamente potencial para tornar a tecnologia mais acessível, intuitiva e centrada no humano. A IA irá revolucionar o cenário de uma série de indústrias - educação, saúde, marketing, automóvel, vendas, manufactura, etc. Enquanto as empresas podem tomar partido da IA para desenvolver uma nova geração de produtos e serviços, aumentar as vendas, e melhorar o apoio ao cliente, as pessoas podem beneficiar de um acesso mais fácil à educação e formação, melhores cuidados de saúde, transportes mais seguros, e produtos e serviços personalizados.

O que significa para os UX designers?

Para o bem ou para o mal, a forma como o Homem, as máquinas e os dados interagem está a passar por uma grande mudança. A IA irá certamente mudar a forma como desenhamos e desenvolvemos conteúdo Web nos próximos anos. Os UX designers estão numa posição única para ajudar a desenhar a IA de forma a que colabore com o Homem, em vez de substitui-lo. Enquanto a IA se pode tornar uma ferramenta poderosa para agilizar o trabalho de design, ajudando os profissionais de UX a criar experiências de utilizador mais personalizadas e eficazes, as interfaces de IA também precisam dos UX designers para se tornarem mais amigas do utilizador.

Artigos Relacionados