Pentaho Data Integration em Cluster

O PDI tem suporte para ser executado clusterizado através do carte,  a configuração do cluster é simples !

Vou neste post agrupar algumas das principais referências que me ajudaram a montar o ambiente de alta performance em uma consultoria que prestamos a um tempo atrás onde diminuímos de 29 para 6 horas o tempo do processamento de carga de um cliente de alto volume de dados, sendo um  cluster simples de 3 maquinas. Fiz diversas alterações em ETL , configurações de memoria Java e escolha de steps de melhor performance , foi uma combinação de fatores! mas deixo aqui os links do cominhos das pedras:

Creating a clustered transformation in Pentaho Kettle
http://diethardsteiner.blogspot.com.br/2013/03/creating-clustered-transformation-in.html

Clustering in Kettle
http://type-exit.org/adventures-with-open-source-bi/2011/10/clustering-in-kettle/

Clustering with Pentaho Data Integration
http://wiki.pentaho.com/display/EAI/Clustering+with+Pentaho+Data+Integration

How to build a simple PDI cluster
http://open-bi.blogspot.com.br/2009/11/hi-all-i-would-like-to-start-serie-of.html

Sobre Marcio Junior Vieira

Atualmente atua como Cientista de Dados da Ambiente Livre. Evangelista de tecnologias Open Source e Free Software desde 1999. Data Scientist, Data Engineer e Big Data Expert. Certified Pentaho Solutions Consultant. Alfresco ECM & Activiti BPM e Camunda BPM Expert. Scala, Java, PHP, Python and JavaScript Programmer.
Esta entrada foi publicada em cientista de dados, Open Source, Pentaho, Pentaho Data Integration ( Kettle ). Adicione o link permanente aos seus favoritos.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *