DigitalAmazon
  • RESEARCH CENTRE
    FOR GREENHOUSE GAS INNOVATION

Documentação Digital Amazon


Visão detalhada da arquitetura

A plataforma é baseada na nuvem, estruturada na AWS. O sistema é composto por vários componentes que trabalham em conjunto para extrair, transformar e carregar dados de diferentes fontes para um dataspace centralizado.



O dataspace recebe metadados e conjuntos de dados científicos de várias fontes, incluindo bancos de dados relacionais e não relacionais, um sistema de informação web e um sistema on-premise. A sincronização de arquivos novos e modificados do sistema on-premise é gerenciada por um cluster mini Kubernetes local, que executa o Apache Airflow com DAGs (Directed acyclic graph) específicas para esta finalidade.

A autenticação para o sistema de informação é gerida pelo serviço AWS Cognito. Além disso, uma réplica do sistema de informação web é mantida no sistema on-premise, permitindo que os pesquisadores locais contribuam com conjuntos de dados que são posteriormente sincronizados para a nuvem através de APIs Rest.

Na nuvem, um cluster Kubernetes é utilizado para gerenciar as instâncias de um Kafka Enterprise Service Bus e o Apache Airflow. Os dados são enviados e recebidos do barramento Kafka, que também se integra com as APIs Rest. 

O sistema on-premise envia metadados e arquivos  através das APIs Rest e AWS Client Services, que entregam os dados ao Kafka para processamento. O Airflow local sincroniza dados novos e modificados com o sistema on-premise, e distribui os dados nas bases de Dataset do dataspace e do Sistema de Informação. 

Os usuários podem consultar, descarregar e analisar os dados científicos utilizando o sistema de informação baseado na nuvem. As consultas de usuários são geridas pelo serviço AWS Elastic Search, com planos para futuramente incorporar um sistema de Machine Learning treinado a partir de um banco de dados de grafo para melhorar a eficácia e a relevância das pesquisas.

Os parceiros podem se integrar diretamente ao sistema de informação da nuvem através das APIs Rest, proporcionando um meio eficiente de colaboração e compartilhamento de dados. A administração dos serviços AWS é acessada via SSO - Single Sign-On, que permite criar e configurar novos serviços conforme necessário para a operação de integração entre os sistemas na nuvem e on-premise.