O PDI tem suporte para ser executado clusterizado através do carte, a configuração do cluster é simples !
Vou neste post agrupar algumas das principais referências que me ajudaram a montar o ambiente de alta performance em uma consultoria que prestamos a um tempo atrás onde diminuímos de 29 para 6 horas o tempo do processamento de carga de um cliente de alto volume de dados, sendo um cluster simples de 3 maquinas. Fiz diversas alterações em ETL , configurações de memoria Java e escolha de steps de melhor performance , foi uma combinação de fatores! mas deixo aqui os links do cominhos das pedras:
Creating a clustered transformation in Pentaho Kettle
http://diethardsteiner.blogspot.com.br/2013/03/creating-clustered-transformation-in.html
Clustering in Kettle
http://type-exit.org/adventures-with-open-source-bi/2011/10/clustering-in-kettle/
Clustering with Pentaho Data Integration
http://wiki.pentaho.com/display/EAI/Clustering+with+Pentaho+Data+Integration
How to build a simple PDI cluster
http://open-bi.blogspot.com.br/2009/11/hi-all-i-would-like-to-start-serie-of.html