Extrator de Metadados do Alfresco

Estudando o Alfresco tomei conhecimento do Projeto Tika  da Apache , que se trata de uma biblioteca especialista em extrair metadados de arquivos.  Para desenvolvedores de ECM e GED é um excelente software tem diversos formatos já mapeados. abaixo uma lista de tipos de arquivos que o Tika tem funções de extração de metadados:

  • PDF , Word, Power Point , Excel  ( MS Binários e OOXML ) , Visio , HTML
  • Open Document Formats ( openoffice / LibreOffice ) e .sxw
  • RCF822 mbox Mail , Outlook .msg Email
  • Audio ( Wav, Riff, MIDI ) MP3 ( id3 v1 ou v2 ) FLV Video
  • DWG Cad
  • Epub
  • RSS e atom feeds
  • True Type Formats
  • Images JPEG, GIF, PNG, TIFF, Bitmap, ( incluindo EXIF )
  • Iwork ( Keinote , Pages etc )
  • CDF ( dados Científicos )
  • Zip e tar
  • RDF , XML
  • Plain Text
  • Java Class File

Saiba mais sobre o Tika em  http://tika.apache.org/

Sobre Marcio Junior Vieira

Atualmente atua como Cientista de Dados da Ambiente Livre. Evangelista de tecnologias Open Source e Free Software desde 1999. Data Scientist, Data Engineer e Big Data Expert. Certified Pentaho Solutions Consultant. Alfresco ECM & Activiti BPM e Camunda BPM Expert. Scala, Java, PHP, Python and JavaScript Programmer.
Esta entrada foi publicada em Alfresco, Open Source. Adicione o link permanente aos seus favoritos.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *