HDF5 (Hierarchical Data Format 5)
HDF5 e um formato de dados concebido para armazenar e gerir colecoes grandes e complexas de dados. E amplamente utilizado em computacao cientifica, machine learning e pesquisa para dados multidimensionais de alto volume.
Tipo MIME
application/x-hdf5
Tipo
Binário
Compressão
Sem perdas
Vantagens
- + Handles datasets from kilobytes to exabytes
- + Hierarchical structure organizes complex data
- + Built-in compression and chunked storage for performance
- + Parallel I/O support for HPC clusters
Desvantagens
- − Complex API with a steep learning curve
- − Not suited for simple tabular data (use Parquet or CSV)
- − File corruption risk with concurrent writes without locks
Quando usar .HDF5
Use HDF5 para dados cientificos, pesos de modelos de machine learning (formato PyTorch/Keras), dados de sensores e qualquer cenario que requeira arrays multidimensionais grandes com acesso aleatorio.
Detalhes técnicos
O HDF5 organiza dados em grupos e datasets num sistema de ficheiros hierarquico. Suporta chunking para I/O parcial, compressao por chunk (gzip, szip, LZF), acesso a dados em paralelo (MPI-IO) e tamanho de ficheiro ate exabytes.
Histórico
O National Center for Supercomputing Applications (NCSA) desenvolveu o HDF nos anos 1980. O HDF5 foi lancado em 1998, redesenhado de raiz para big data. E agora mantido pelo HDF Group e utilizado pela NASA, CERN e grandes laboratorios de investigacao.