Blog

A proteção de dados na essência de uma regulação eficiente sobre IA generativa

Autor(es) LPL:
Felipe Müller

O debate sobre inteligência artificial (IA) ao lado das questões sobre alterações climáticas ocupam o bojo do debate público atual. O surgimento da IA generativa, por sua vez, gerou um hype nos últimos dois anos, quando se popularizou, nomeadamente através do lançamento do ChatGPT.  Suas funcionalidades abriram portas para um panorama futurístico, onde tudo seria endereçado através destes sistemas e, também por isso, suscitou debates e críticas na mesma proporção acerca dos malefícios desta ferramenta.

Sua “magia” está na capacidade de criar novos padrões e respostas, sem inputs humanos, ou seja, a compreensão adquirida no sistema de IA generativa se torna capaz de gerar e criar novos dados, como textos, imagens e áudios, semelhantemente aos utilizados na formação inicial do padrão, sem a necessária intervenção prévia humana na classificação e padronização destes dados. Para isso, a IA Generativa utiliza-se de Machine Learning e Deep Learning e, mais precisamente, de Large Language Models (LLMs), para processar imensa quantidade dados rotulados e não-rotulados, a fim de proporcionar a criação de outcomes, a partir do “aprendizado” ínsito do algoritmo.

Esta mudança de eixo de uma IA “tradicional” para IA Generativa, passou a exigir mais atenção quanto à qualidade dos dados de treinamentos, validação e teste, superando a lógica inicial vigente de garbage in, garbage out, para um olhar atento aos resultados, em função da inventividade do modelo generativo de IA.

Entende-se, pelo Artificial Intelligence Act (AI Act), como dados de treinamento, aqueles dados usados para treinar um sistema de IA, mediante o ajustamento dos seus parâmetros passíveis de serem aprendidos e, dados de validação, como aqueles utilizados para realizar uma avaliação do sistema de IA treinado e, ajustar os seus parâmetros não passíveis de serem aprendidos e o seu processo de aprendizagem.

Assim, os principais riscos para aprendizagem de máquina, segundo Philipp Hacker, são os i) riscos para a qualidade dos dados; ii) riscos de discriminação; e iii) riscos de inovação. Neste sentido, o autor é pontual ao comentar que os dados de treinamento e validação tem função primordial para a correta aprendizagem de máquina, a fim de eliminar os riscos centrais supramencionados, nomeadamente na atividade inventiva “autônoma”.  

Em termos regulatórios, o recente aprovado AI Act, pretende conferir maior proteção aos dados utilizados nestes modelos de treinamento, para garantir a qualidade do resultado, através de treino, validação e teste. O  artigo 10.º, traz uma série de regras para sistemas de IA de risco elevado que se utilizem de treinamento de modelos com dados.

Os conjuntos de dados de treino, validação e teste devem estar sujeitos à práticas adequadas de governação e gestão de dados, sendo que tais práticas dizem nomeadamente respeito, dentre outras, a) às escolhas de conceção pertinentes; b) à recolha de dados, origem, e caso sejam dados pessoais, a finalidade original da recolha; c) às operações de preparação e tratamento de dados necessárias, tais como anotação, rotulagem, limpeza, enriquecimento e agregação; d) à formulação dos pressupostos aplicáveis, nomeadamente no que diz respeito às informações que os dados devem medir e representar; e) avaliação prévia da disponibilidade, quantidade e adequação dos conjuntos de dados que são necessários; f) ao exame para detectar eventuais enviesamentos; g) medidas adequadas para detectar, prevenir e atenuar eventuais enviesamentos identificados nos termos da alínea.

Um importante passo foi dado em relação a uma regulação eficiente da IA Generativa, sem, contudo, nos iludirmos que será suficiente. A tecnologia é incrivelmente mais rápida que a resposta que o Direito poderá oferecer!

#ia #iagenerativa #regulação # direito #protecaodedados #aiact #fdul #lpl

Lisbon Public Law Research Centre

O que procura?

Ex. Investigadores, Eventos, Publicações…