Gartner Blog Network


OK, Eu Desisto, Não Estruturada Ganha

by Donald Feinberg  |  October 9, 2014  |  3 Comments

Donald Africa

Mais Um Blog do DBMS Curmudgeon (Cético)

Durante os últimos (muitos) anos, eu travei a batalha sobre o uso da expressão “estruturados” versus “não estruturados” na gestão de dados. Eu tentei cada argumento lógico e tentei muitos outros termos para descrever dados não estruturados, como também fizeram muitos dos meus colegas do Gartner e toda a indústria. Até mesmo usei a expressão “a palavra U” para dados não estruturados (“Unstructured” em inglês) para implicar que é semelhante aos sete palavrões (em inglês), uma rotina de um dos meus comediantes favoritos, George Carlin. Independentemente de quantas vezes, alguns de nós tem tentado, a expressão “não estruturados” continua a ser amplamente utilizada para descrever todos os dados que não podem ser simplesmente descritos como dados relacionais. Para alguns, é XML ou texto. Para outros, ela abrange todo o espectro de XML para voz e vídeo, incluindo e-mail e SMS (por vezes referido como dados de ruído). Em termos simples, é tudo a que nos referimos como “as outras coisas” que iríamos armazenar em arquivos ou banco de dados.

Segundo a Wikipedia “dados não estruturados (ou informações não-estruturadas) referem-se (geralmente) a informação computadorizada que, ou não tem um modelo de dados, ou tem um que não é facilmente utilizável por um programa de computador. O termo distingue tais informações a partir de dados armazenados em formato de campo em bancos de dados ou anotada (com etiqueta semântica) em documentos”. Onde eu tenho um problema é que XML tem, sim, um modelo de dados (consulte XML Schema). Além disso, um JPEG (Joint Photographic Experts Group), TIFF (Tagged Image File Format) ou outros arquivos de imagem são facilmente utilizáveis em um programa de computador – por exemplo, no Adobe Photoshop. A Wikipedia chega a dizer: “O termo [não estruturado] é impreciso por várias razões …” Esta sempre foi a base para eu não usá-lo – é impreciso e sem definição formal do tipo de dados a que se refere.

Então, por que nós usamos “não estruturados” para descrever todos os dados que não se encaixam muito bem em um modelo de dados? Porque se tornou geralmente aceito em toda a indústria. Quando alguém usa a expressão “dados não estruturados”, todos entendem que estamos descrevendo os dados que não são uma coluna de números, caracteres ou datas. Na realidade, os dados realmente se encaixam em um contínuo que vai do estruturado ao não estruturado, desde números relacionais, datas e caracteres através XML, até não estruturados, tais como voz, vídeo e e-mail. Alguns dados são mais estruturados que outros.

Portanto, eu desisto. Algumas batalhas simplesmente não valem a pena. Chega de lutar essa batalha. Vitória do antigo provérbio “Se você não pode vencê-los, junte-se a eles”. Agora vou usar “não estruturados” para descrever todas as “outras coisas” que não são estruturadas. É claro que agora nós chamamos isso de Big Data – Opa, não vamos entrar nisso (pelo menos hoje).

Obrigadão ao meu amigo e colega do Gartner, Cássio Dreyfuss por obter ajuda com o meu português 

Category: analyst  banco-de-dados  big-data  data-management  dbms  

Tags: banco-de-dados  database-management-system  structured-data  unstructured-data  xml  

Donald Feinberg
VP Distinguished Analyst
25 years at Gartner
50 years IT industry

Donald Feinberg is a vice president and distinguished analyst in Gartner Intelligence in the Information Infrastructure group. Mr. Feinberg is responsible for Gartner's research on database management systems and data warehousing infrastructure. Read Full Bio


Thoughts on OK, Eu Desisto, Não Estruturada Ganha


  1. Daniel Barros says:

    Adorei o artigo. Nunca havia parado para pensar nisso! Realmente xml, jpeg e tiff sao otimos exemplos!

  2. João Bohner says:

    Parabéns pela atitude e bemvindo ao mundo real!

    Sua definição “Alguns dados são mais estruturados que outros” é boa.

    Na minha visão os dados básicos NECESSÁRIOS para gerenciar um negócio tem que ser ‘estruturados’.
    Os dados para as várias análises, comparações e predições – os dados NICE-TO-HAVE – serão compostos pelos dados ‘estruturados’ do negócio, complementados pelos dados ‘menos estruturados’ do cyberespaço apropriado.

  3. Allan Vieira says:

    Eu compartilhei da mesma opinião que a sua, porém hoje penso que tabelas, xmls e outros formatos digitais foram criados para armazenação de informação, possibilitando recuperar um dado já em forma de informação.
    Em uma tabela NOTA do banco de dados, temos o campo VALOR, sendo assim temos o dado estruturado, representando uma informação pronta da nota, porém temos um campo OBSERVACAO, referente a um campo de texto, aonde são informados observações em input do tipo texto como desconto de notas, transportador, juros, trocas, etcs. Como não existe um padrão na maneira como estas observações são lançadas, não é possível recuperar a informação em primeiro instante, é necessário o processamento deste dado com outros tipos de técnicas para conseguir obter alguma informação. Neste caso temos um exemplo simples de tipo de dados estruturado e não estruturado independente de sua fonte de armazenamento.
    No exemplo de imagens e videos, não tem sentido justificar que eles são dados estruturados somente por que estes arquivos podem ser visualizados e ou editados em softwares especificos, qual informação podemos retirar do conteúdo de uma imagem sem precisarmos utilizarmos técnicas avançadas de processamento de dados não estruturados?
    Acho que quando criaram este termo, deveriam ter escolhido o nome de informação estruturada e informação desestruturada, acho que faria mais sentido.



Leave a Reply

Your email address will not be published. Required fields are marked *

Comments or opinions expressed on this blog are those of the individual contributors only, and do not necessarily represent the views of Gartner, Inc. or its management. Readers may copy and redistribute blog postings on other blogs, or otherwise for private, non-commercial or journalistic purposes, with attribution to Gartner. This content may not be used for any other purposes in any other formats or media. The content on this blog is provided on an "as-is" basis. Gartner shall not be liable for any damages whatsoever arising out of the content or use of this blog.