4  Metadados e manipulação do painel Agenda 2030 no STF

Os processos etiquetados com ODS da Agenda 2030 estão no hotsite disponível no portal do STF1. Este hotsite contém informações sobre a inclusão da Agenda 2030 no dia a dia do tribunal e um painel com os processos etiquetados com ODS. Tais etiquetas são colocadas por especialistas da área jurídica do tribunal. Uma etiqueta de ODS 10 indica, por exemplo, que o processo etiquetado guarda forte relação com desigualdade social, enquanto que a etiqueta do ODS 5 indica que o processo judicial é aderente aos temas de igualdade de gênero. Os objetivos da iniciativa RAFA são classificar grandes conjuntos de processos judiciais em ODS da Agenda 2030 e auxiliar na classificação individual de processos através de um app desenvolvido em Shiny. Para a tarefa de classificação, que envolve aprendizagem supervisionada, faz-se uso do conjunto etiquetado pelos especialistas. Basicamente, os dados que aparecem no painel disponível no hotsite compõem o conjunto de treinamento utilizado pelas redes neurais e demais algoritmos de aprendizagem de máquina. A Figura 4.1 mostra o painel disponível no hotsite:

Figura 4.1: Painel - Hotsite

Através do botão .xlsx é possível baixar uma planilha contendo todos os processos, suas respectivas etiquetas de ODS e metadados. Tal planilha é utilizada no script limpeza do projeto em R e, depois de pivoteada, possui 18 colunas, sendo uma para o ID do processo e uma coluna binária para cada um dos 17 ODS da Agenda 2030. O objetivo, ao final da leitura e limpeza dos PDFs - passo que foi apresentado em seções anteriores - é usar comandos de natureza join do pacote dplyr para montar uma base com todos os textos dos processos e as respectivas marcações de ODS. Da tabela oriunda do hotsite ainda é possível usar outros metadados, tal como a classe processual, que pode ser uma das variáveis categóricas no algoritmo CatBoost. Tal algoritmo, cuja possível implementação está contida no notebook Python, é uma das opções. De posse das etiquetas e metadados, é possível apresentar as abordagens e estratégias de classificação, objetivo do capítulo seguinte.


  1. Hotsite disponível em: https://portal.stf.jus.br/hotsites/agenda-2030/.↩︎