Data Lake - Como funciona : Infraspeak Academy

A solução de Data Lake da Infraspeak é um produto que permite um acesso inigualável aos dados da Infraspeak, de forma a potenciar a escalabilidade e flexibilidade do cliente, aumentar a performance da equipa, melhorar a eficiência das operações e permitir um fluxo de dados centralizado. O Data Lake da Infraspeak possui uma arquitetura simplificada que possibilita uma nova geração de casos de uso relacionados com dados. Permite-lhe escolher como ingerir os seus dados da Infraspeak, é compatível com qualquer tech stack e dá-lhe acesso aos seus backups de dados.

Estrutura do Data Lake:

De forma simples e resumida, o Data Lake da Infraspeak tem a seguinte estrutura:

Para cada entidade da plataforma Infraspeak, será gerado um diretório que contém pastas com os ficheiros .csv resultantes do processo ETL.
Os ficheiros serão nomeados com um timestamp e o objeto correspondente.
Os clientes Infraspeak podem recuperar os ficheiros S3 através da API da AWS, com as credenciais IAM que lhes foram partilhadas.
Ao utilizar o conector Athena para qualquer ferramenta analítica, o cliente pode selecionar quais as tabelas (dos dados disponíveis) que deseja importar.
O Athena terá um grupo de trabalho (workgroup) para cada cliente, definindo a pasta de saída específica para armazenar os resultados das consultas no S3.

Tabelas do Data Lake:

No Data Lake da Infraspeak, encontrará dados dos seguintes objetos (por favor, considere que apenas as tabelas do Data Lake com o sufixo “__view” devem ser utilizadas para análise):

buy_order → Compras (do tipo Material e Serviços)
buy_order_material → Linhas de Compra de Material
buy_order_registry → Registo de ações de ordens de compra
buy_order_service → Linhas de Compra de Serviços
category → Categorias de Manutenção
category_meterings → Medições de Categorias de Manutenção
category_meterings_catalog → Opções de catálogo de medições de catálogo
characteristic → Características de Categorias de Manutenção
client → Clientes
client_operator → Utilizadores associados ao Cliente
cost_center → Centros de Custo
element → Ativos
element_characteristic → Características do Ativo
element_economic → Dados económicos do Ativo
element_other_cost → Registo de Outros Custos em Ativos
element_registry → Registo do Ativo
event → Eventos de Pedidos e Trabalhos Planeados
event_registry → Registo de Eventos
failure → Pedidos
failure_element → Ativos da Ordem de Trabalho
failure_other_cost → Registo de outros custos em Pedidos
failure_pause_reason → Motivos de pausa de Pedidos
failure_priority → Prioridades disponíveis de Pedidos
failure_sla → SLA de Pedidos
failure_sla_rule → Regras de SLA de Pedidos
failure_sla_rule_operator → Regras de notificação de SLA de Pedidos por Operador
failure_sla_rule_registry → Registo de regras de SLA de Pedidos
gatekeeper → Gatekeepers disponíveis/configurados
gatekeeper_answer_registry → Registo de gatekeepers respondidos
gatekeeper_question → Perguntas disponíveis no Gatekeeper
gatekeeper_question_answer → Registo de perguntas respondidas em cada gatekeeper
intervention → Intervenções de Categorias de Manutenção
intervention_procedure → Tarefas da Intervenção
local_operator → Utilizadores associados ao Local
location → Locais
location_building_info → Edifícios
maintenance_procedure → Tarefas configuradas das Categorias
maintenance_procedure_metering → Medições associadas às tarefas
material → Materiais
material_warehouse → Associação de armazém dos materiais
metering_registry → Registo de medições
operator → Utilizadores
operator_activity → Registo de atividade do operador
operator_technical_skill → Competências técnicas associadas ao operador
other_cost → Outros Custos
problem → Áreas e tipos de Ordens de Trabalho
problem_technical_skill → Competências técnicas associadas à área de Pedidos
problem_responsible → Responsáveis associados à área de Pedidos
quote → Orçamentos
quote_line → Linhas de Orçamento
quote_request → Pedidos de Orçamento
quote_request_line → Linhas de pedido de orçamento
scheduled_work → Agendamentos de Trabalhos Planeados
schedule_work_other_cost → Registo de Outros Custos em Trabalhos Planeados
sell_order → Ordens de Venda
sell_order_line → Linhas de Ordens de Venda
stock → Registo de Stock
stock_movement → Registo de movimentos de stock
supplier → Fornecedores
technical_skill → Especialidades Técnicas
warehouse → Armazéns
work → Trabalhos Planeados
work_intervention → Intervenções de Trabalhos Planeados
work_location → Locais dos Trabalhos Planeados
work_responsible → Responsáveis pelos Trabalhos Planeados
work_sla_rule → Regras de SLA de Trabalhos Planeados
work_sla_rule_operator → Regras de notificação de SLA de Trabalhos Planeados por Operador
work_type → Tipos de Trabalhos Planeados

Os dados serão fornecidos de forma sequencial; a disponibilidade temporal dos dados será de acordo com o plano contratualizado.

Nota: o Infraspeak Data Lake é um produto em constante atualização, nomeadamente as estruturas de dados disponibilizadas. Caso os dados que necessite não se encontrem indicados neste artigo, entre em contacto com o seu CSM para verificação da disponibilidade da tabela correspondente.

Repositório de Tabelas

O repositório do Data Lake oferece informações cruciais sobre as tabelas disponíveis e as suas correlações. O acesso ao repositório é concedido automaticamente através de um convite por e-mail assim que o Data Lake estiver configurado.

Navegar no Repositório

Na página principal, encontrará uma lista completa das tabelas disponíveis no Data Lake. Recomendamos a revisão desta lista. Para visualizar os detalhes de uma tabela específica, basta clicar diretamente no nome da tabela na lista do lado esquerdo da página. A documentação também inclui diagramas de correlação de tabelas.

O diagrama específico para cada tabela pode ser visualizado diretamente na página dessa tabela, conforme explicado acima. Para aceder ao diagrama geral que mostra todas as tabelas, clique em "Diagram" na parte superior central da primeira página do repositório.

A API não é recomendada para a extração de dados, pois não suporta extração em larga escala nem proporciona uma experiência de integração estável. O Data Lake é atualmente o melhor produto para extração de dados.