IA recria o que as pessoas veem lendo suas
varreduras cerebrais
Um novo sistema de inteligência artificial
pode reconstruir imagens que uma pessoa viu com base em sua atividade
cerebral
Neurociência já consegue reconstruir
imagens mentais com ajuda da inteligência artificial, mas
mistério da subjetividade permanece
Álvaro Machado Dias
Neurocientista, professor livre-docente da Unifesp (Universidade
Federal de São Paulo) e sócio do Instituto Locomotiva
e da WeMind
A notícia de que um "novo
modelo de IA consegue reproduzir o que você está pensando
com 80% de acurácia", como reportado pela Revista Fortune,
espalhou-se rapidamente e causou furor. Não foi a primeira
vez.
Desde 2011, pipocam notícias
de representações mentais reconstruídas a partir
de registros de atividade cerebral decodificada por algoritmos,
o que não é bom sinal para quem está atrás
de uma fantasia de controle mental para chamar de sua.
A diferença é que
as reconstituições tornaram-se fidedignas. Um feito
e tanto. Mas, será que podemos chamá-las, indiscriminadamente,
de reproduções do pensamento? O estudo reportado envolveu
sujeitos (3) vendo fotografias em uma
tela, enquanto mensurações indiretas da atividade
cerebral eram efetuadas.

Ou seja, a tarefa foi inteiramente pautada pela observação,
sem qualquer tratamento cognitivo subsequente. Por outro lado, será
que a percepção separa-se completamente do ato de
pensar? Até que ponto quem vê apenas observa, e não
reflete?
Essas são algumas das perguntas
que vêm à tona, conforme as neurociências da
reconstrução das experiências mentais progridem.
Antes de respondê-las e passar para um tópico interessante
sobre a natureza do funcionamento da mente, que esse tipo de estudo
ajuda a desvendar, vale a pena conhecer um pouco sobre a capacidade
de ver (sensorial) e a de enxergar (afetivo-cognitiva).
Por trás da reconstrução
de cenas visualizadas: princípios cerebrais
A visão é organizada de maneira majoritariamente
hierárquica. Conforme os impulsos nervosos atingem diferentes
instâncias, as computações neurais ganham maior
complexidade. A retina, que converte os fótons em impulsos
nervosos, possui fotorreceptores específicos para discriminar
luz e cor.
Estes sinais passam por núcleos organizacionais,
como o geniculado do tálamo, e chegam às áreas
primárias do córtex occipital, que ocupa uma porção
grande do nosso cérebro, quase que exclusivamente dedicada
ao processamento visual.
Ali, a orientação de linhas, profundidade
e cor são computadas, num pingue e pongue com a decodificação
das formas, movimento, volumetria e outros aspectos determinantes
da percepção.
Os subprodutos são transmitidos para áreas
dedicadas à imediaticidade responsiva, responsáveis
pela nossa capacidade de refrear o movimento quando detectamos uma
cobra, antes mesmo de entendermos claramente isso; e para áreas
que dão sentido cultural, biográfico e subjetivo ao
estímulo, por meio de associações com experiências
pregressas, determinação do seu tom afetivo, correlação
com palavras e assim por diante.
As computações neurais
que dão sentido às imagens mentais não apenas
acrescentam algo aos códigos neurais que recebem, como emitem
projeções em direção às áreas
primárias do córtex occipital, influenciando a seleção
do que enxergamos e a maneira como o fazemos. Neste sentido, atuam
como sensores de relevância no escrutínio informacional
do mundo exterior.
A visão não se reduz
a um processo de decodificação de estímulos,
sendo também uma dinâmica decisória e de preenchimento
de lacunas na formação de unidades coesas, ou gestalts.
Esta é a base neurológica da tese de que o mundo percebido
é influenciado por nossas aspirações e desejos,
reconhecidos e inconscientes. Vemos como somos; enxergamos como
suportamos.
Quando os olhos não estão
mais sendo estimulados, é comum que as representações
mentais formadas mantenham-se ativadas. Elas entram em uma fase
que chamamos de memória recente, a qual tem menos a ver com
o que faz um HD, ou mesmo com o cache de um PC, do que com atenção
sustentada, atividade que aceita pouco paralelismo e gasta muita
energia.
O domínio representacional
em que isso se dá é a consciência, que neste
sentido se manifesta como um campo de priorização
de fenômenos gerados pelo próprio cérebro, mesmo
nas situações em que identificamos, de maneira inconteste,
tais ocorrências com o mundo exterior.
Com muita boa vontade, dá
para chamar estas representações identificadas de
maneira direta com o mundo exterior de pensamentos e, por consequência,
sua decodificação de leitura destes.
Com menos boa vontade, tal fronteira pode ser estabelecida
pelas imagens mentais que surgem à consciência sem
estimulação sensorial direta ou, ainda mais rigorosamente,
pelas dinâmicas mentais que sintetizam ideias dispersas ou
promovem a expansão das possibilidades de entendimento de
maneira exploratória. Filmes e não fotos.
O pensamento visual não é uma categoria
do tipo tudo ou nada, mas um domínio contínuo, que
começa na percepção, avança um pouco
quando mantemos na memória uma imagem que não mais
possui um duplo estimulando nossas retinas, dá um salto nos
casos de reconstrução de imagens mentais livres e
ganha contornos plenos quando essas coisas todas são inseridas
em dinâmicas que alteram o grau de desordem mental de maneira
propositiva.
Com isso, dá para retomar as perguntas da introdução:
aquele que observa, em certo nível, pensa, já que
seleciona e ativamente preenche suas representações
do mundo exterior. Por outro lado, adotando uma metáfora
espacial, isso acontece bem pertinho da porta de entrada do mundo
do pensamento.
Em suas câmaras principais, este está
comprometido com o trânsito das representações
mentais, as quais sequer costumam ser puramente visuais, ainda que
isso seja possível. A Fortune foi infeliz na sua caracterização
do feito, que não é bem leitura do pensamento, exceto
para se tentar vender mais algumas assinaturas da revista.
Leituras de mentalizações usam
medidas indiretas das mesmas
A reconstrução de
representações visuais induzidas experimentalmente
divide-se nos seguintes tipos: recriação daquilo que
as pessoas estão vendo em tela; de imagens mentais sustentadas
após o término da fase de exposição;
de representações imaginárias da vigília,
ou de sonhos. Trânsitos cognitivos, com aplicação
de processos lógicos formais ou heurísticas, seguem
fora de alcance.
O estudo que está fazendo
sucesso atualmente, como descrito, é do primeiro tipo e utiliza
chapas de ressonância magnética em disposição
‘funcional’ (RMf). O princípio é simples:
enquanto robôs possuem baterias centrais que distribuem a
energia para todas as partes, o cérebro consome energia localmente
para processar informações.
Isso é feito pelas mitocôndrias,
que transformam glicose + oxigênio, em água + energia.
Esta é a respiração. Portanto, enquanto nosso
sistema cognitivo inicia o tratamento de informações,
nosso sistema vascular aumenta o aporte de sangue oxigenado nas
áreas cerebrais relacionadas para que haja energia. A RMf
é um registro do trânsito do sangue oxigenado nas áreas
ativadas por estes processos mentais.
Dado que as porções
primárias do córtex occipital dedicam-se a informações
elementares, como linhas, formas e cores, o problema a ser resolvido
é de reconhecimento de padrões envolvendo este tipo
de coisa e não, por exemplo, impacto afetivo ou associações,
como seria o caso se estivéssemos no domínio da reconstrução
de traumas psicológicos ou repressões.
O procedimento envolve a criação
de modelos preditivos, customizados, do papel dos pixels da ressonância,
conhecidos como voxels, e a subsequente extrapolação
para novas imagens.
A customização é
necessária porque cada cérebro possui as suas especificidades.
Assim, os participantes são expostos a milhares de imagens
para que a IA extraia estes padrões: linhas, formas, cores
etc. No experimento em questão, cada sujeito passou mais
de 40 horas no scanner, distribuídas por vários dias.
A ressonância não produz radiação ionizante,
não trazendo riscos.
Vencida esta etapa, é preciso
reconstruir a imagem, a partir das correlações entre
os voxels das neuroimagens e os pixels das fotos. É aí
que mora o desafio: mesmo nas partes mais básicas do córtex
occipital, o processamento não é linear, o que impede
a elaboração de dicionários individualizados
de voxels, com correspondências em pixels fotográficos.
A solução inovadora
é usar o stable difusion, IA de produção de
imagens que se tornou uma verdadeira febre, para a reconstrução
das imagens (mais sobre os procedimentos experimentais aqui). O
insight tem a ver com a ideia de converter as neuroimagens em prompts
(solicitações) para o algoritmo, que então
executa a reconstrução, usando um conhecido método
de adição e remoção sequenciada de ruídos,
que mascaram/desmascaram a imagem, descrito aqui.
A taxa de sucesso passa de 80%,
o que é bem impressionante, considerando que cada voxel recobre
centenas de milhões de neurônios e o aporte sanguíneo
é muito mais lento do que a produção mental,
não estando em nada sincronizado com a experiência
visual. O mesmo pode ser feito com ondas cerebrais (EEG). Isto é
vantajoso por um lado, já que a correlação
temporal torna-se mais afinada, mas desvantajoso por outro, dado
que o oposto ocorre espacialmente.
Decodificando representações
mentais livres por meio de registros cerebrais
Uma conclusão experimental que vem à
tona quando cotejamos a reconstrução de imagens observadas
com a de imagens mentais livremente imaginadas é que a atividade
cerebral tende a ser atenuada neste segundo caso.
Isso faz todo o sentido, uma vez que, em termos
evolucionários, memória e imaginação
estão a serviço da otimização da relação
com o mundo exterior, a qual precisa estar mais diretamente acoplada
ao comportamento. A importância dessa perspectiva para a filosofia
da mente e para a compreensão das psicoses não deve
ser menosprezada.
Ao mesmo tempo, as áreas do cérebro
envolvidas na atribuição de sentido, isto é,
categorização, associação com memórias,
injeção de tom afetivo e afins, tornam-se essenciais
à decodificação imaginária, não
sendo tão essencial à recriação de estímulos
observados —eis outra conclusão de valor inestimável
para quem se interessa pelo funcionamento da mente.
Partindo desses pressupostos, um manuscrito, que
ainda não saiu em uma revista científica, traz um
experimento voltado à decodificação de figuras
imaginadas (10 imagens naturais e 15 figuras) e afirma ter tido
sucesso no processo.
Infelizmente, o texto não inclui um descritivo
detalhado do procedimento usado para estimular a imaginação
das imagens, nem tampouco a taxa de sucesso do procedimento. A maioria
das tentativas anteriores fracassou (sucesso < 30%).
Uma exceção parcial foi descrita em
um estudo envolvendo o uso de registros de fMRI para identificar
imagens alucinadas durante a transição da vigília
para o sono, "leitura dos sonhos", na linha da Fortune.
Este estudo restringiu-se ao tagueamento verbal
dos sonhos (e.g., sonho com cadeira, pessoa, gato) e obteve 60%
de sucesso, em alguns casos. Nada mal. Reconstruções
de miolos de sonhos permanecem no domínio da ficção,
possivelmente, por pouco tempo.
Até que ponto as coisas que imaginamos
passam em nosso cérebro como um filminho?
A questão mais profunda que essa linha de
pesquisas traz é se as experiências mentais duplicam
a realidade que conhecemos através de imagens, filmes e,
mais amplamente, das nossas inferências sobre o mundo exterior,
ou se o cérebro funciona de maneira diferente.
Séculos de especulações levaram-nos
a assumir que este segundo é o caso, ao passo que a reconstrução
de conteúdos mentalizados parece indicar o primeiro.
Será que, ao fim e ao cabo, iremos descobrir
que a realidade imaginada, e mesmo sonhada, estende-se em um contínuo
representacional com a ficção e os documentários?
Será que, no futuro, sonhos serão como stock video,
disponíveis por R$ 29,90, para quem quiser comprá-los
para assistir em casa ou mesmo usá-los em suas produções
criativas?
A verdade parece se situar no meio do caminho. A
capacidade de decodificação sugere que representações
mentais não são etéreas ou inacessíveis
e tudo indica que em breve seremos capazes de extrair trechos ininterruptos
do cérebro, tanto na forma de trânsitos de pensamentos,
quanto de miolos de sonhos.
Porém, a ideia de que estas produções
mentais terão a linearidade e a explicabilidade intrínseca
das narrativas socializadas contrasta com o que conhecemos a partir
de relatos literários e clínicos. O equívoco
elementar sob o mecanicismo da hipótese de que a mente passa
filminhos é ignorar um século de evidências
acumuladas que apontam o contrário.
Representações mentais tendem a funcionar
mais como marcadores de sentidos do que como histórias contadas
para uma audiência que desconhece o seu enredo. Estes marcadores
tanto combinam imagens, cenas, frases, sons e mais, quanto geram
formas híbridas de representação, sem paralelos
no mundo compartilhado.
As neurociências estão prestes a transitar
para esta fase em que discutiremos temas como sonhos, imaginação
e metáforas de relevância pessoal com essas coisas
todas projetadas em vídeo, ou melhor, em VR.
O que não dá para esperar é
que se tornem menos misteriosas do ponto de vista subjetivo, já
que há algo de intrinsecamente incomunicável nas representações
mentais de cada um. Assim é a condição humana.
>>> acessem
o pdf da pesquisa de Yu Takagi e Shinji
Nishimoto
>
https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full.pdf