Documentação Digital Amazon
A arquitetura do sistema Digital Amazon é construída com várias partes integradas que colaboram para permitir a aquisição, armazenamento, sincronização e consulta de dados. Os principais elementos dessa arquitetura são listados a seguir.
Comunicação Dataspace-OnPremise
Uma rede privada virtual (VPN) foi estabelecida para permitir uma comunicação segura entre o dataspace e o sistema on-premise. Esta VPN garante que os dados em trânsito estão protegidos contra interceptação e que ambas as extremidades da conexão podem confiar na identidade uma da outra.
Processo ELT no Dataspace
O sistema segue uma abordagem ELT (Extract, Load, Transform) para o processamento de dados. Os dados são primeiro extraídos de várias fontes, depois carregados no dataspace. Uma vez no dataspace, os dados são transformados para limpeza, agregação, e outras operações necessárias para prepará-los para análise e consulta.
Sincronização de Metadados
O sistema possui uma função de sincronização que assegura a consistência entre o dataspace e o sistema on-premise. Tanto os metadados quanto os conjuntos de dados científicos são sincronizados, permitindo uma visão única dos dados, independentemente de onde eles estão sendo acessados.
Interface Web
A interface web é a principal forma pela qual os usuários interagem com o sistema. Ela permite que os usuários consultem os dados curados no dataspace, descarreguem os datasets e realizem outras operações de análise de dados.
Cluster Kubernetes
Um cluster Kubernetes é utilizado para gerenciar os Jobs de sincronização. Isso fornece uma maneira escalável e eficiente de gerenciar estes processos, permitindo que eles sejam escalonados para cima ou para baixo conforme a demanda.
Mini Kubernetes
Um cluster Kubernetes Local é utilizado para gerenciar os Jobs de sincronização com a nuvem instanciado no ambiente on premise.