Estudando o Alfresco tomei conhecimento do Projeto Tika da Apache , que se trata de uma biblioteca especialista em extrair metadados de arquivos. Para desenvolvedores de ECM e GED é um excelente software tem diversos formatos já mapeados. abaixo uma lista de tipos de arquivos que o Tika tem funções de extração de metadados:
- PDF , Word, Power Point , Excel ( MS Binários e OOXML ) , Visio , HTML
- Open Document Formats ( openoffice / LibreOffice ) e .sxw
- RCF822 mbox Mail , Outlook .msg Email
- Audio ( Wav, Riff, MIDI ) MP3 ( id3 v1 ou v2 ) FLV Video
- DWG Cad
- Epub
- RSS e atom feeds
- True Type Formats
- Images JPEG, GIF, PNG, TIFF, Bitmap, ( incluindo EXIF )
- Iwork ( Keinote , Pages etc )
- CDF ( dados Científicos )
- Zip e tar
- RDF , XML
- Plain Text
- Java Class File
Saiba mais sobre o Tika em http://tika.apache.org/