Blog post

OK, Eu Desisto, Não Estruturada Ganha

By Donald Feinberg | October 09, 2014 | 3 Comments

DBMSData ManagementData and Analytics StrategiesBanco de DadosAnalyst

Donald Africa

Mais Um Blog do DBMS Curmudgeon (Cético)

Durante os últimos (muitos) anos, eu travei a batalha sobre o uso da expressão “estruturados” versus “não estruturados” na gestão de dados. Eu tentei cada argumento lógico e tentei muitos outros termos para descrever dados não estruturados, como também fizeram muitos dos meus colegas do Gartner e toda a indústria. Até mesmo usei a expressão “a palavra U” para dados não estruturados (“Unstructured” em inglês) para implicar que é semelhante aos sete palavrões (em inglês), uma rotina de um dos meus comediantes favoritos, George Carlin. Independentemente de quantas vezes, alguns de nós tem tentado, a expressão “não estruturados” continua a ser amplamente utilizada para descrever todos os dados que não podem ser simplesmente descritos como dados relacionais. Para alguns, é XML ou texto. Para outros, ela abrange todo o espectro de XML para voz e vídeo, incluindo e-mail e SMS (por vezes referido como dados de ruído). Em termos simples, é tudo a que nos referimos como “as outras coisas” que iríamos armazenar em arquivos ou banco de dados.

Segundo a Wikipedia “dados não estruturados (ou informações não-estruturadas) referem-se (geralmente) a informação computadorizada que, ou não tem um modelo de dados, ou tem um que não é facilmente utilizável por um programa de computador. O termo distingue tais informações a partir de dados armazenados em formato de campo em bancos de dados ou anotada (com etiqueta semântica) em documentos”. Onde eu tenho um problema é que XML tem, sim, um modelo de dados (consulte XML Schema). Além disso, um JPEG (Joint Photographic Experts Group), TIFF (Tagged Image File Format) ou outros arquivos de imagem são facilmente utilizáveis em um programa de computador – por exemplo, no Adobe Photoshop. A Wikipedia chega a dizer: “O termo [não estruturado] é impreciso por várias razões …” Esta sempre foi a base para eu não usá-lo – é impreciso e sem definição formal do tipo de dados a que se refere.

Então, por que nós usamos “não estruturados” para descrever todos os dados que não se encaixam muito bem em um modelo de dados? Porque se tornou geralmente aceito em toda a indústria. Quando alguém usa a expressão “dados não estruturados”, todos entendem que estamos descrevendo os dados que não são uma coluna de números, caracteres ou datas. Na realidade, os dados realmente se encaixam em um contínuo que vai do estruturado ao não estruturado, desde números relacionais, datas e caracteres através XML, até não estruturados, tais como voz, vídeo e e-mail. Alguns dados são mais estruturados que outros.

Portanto, eu desisto. Algumas batalhas simplesmente não valem a pena. Chega de lutar essa batalha. Vitória do antigo provérbio “Se você não pode vencê-los, junte-se a eles”. Agora vou usar “não estruturados” para descrever todas as “outras coisas” que não são estruturadas. É claro que agora nós chamamos isso de Big Data – Opa, não vamos entrar nisso (pelo menos hoje).

Obrigadão ao meu amigo e colega do Gartner, Cássio Dreyfuss por obter ajuda com o meu português 

Leave a Comment

3 Comments

  • Daniel Barros says:

    Adorei o artigo. Nunca havia parado para pensar nisso! Realmente xml, jpeg e tiff sao otimos exemplos!

  • João Bohner says:

    Parabéns pela atitude e bemvindo ao mundo real!

    Sua definição “Alguns dados são mais estruturados que outros” é boa.

    Na minha visão os dados básicos NECESSÁRIOS para gerenciar um negócio tem que ser ‘estruturados’.
    Os dados para as várias análises, comparações e predições – os dados NICE-TO-HAVE – serão compostos pelos dados ‘estruturados’ do negócio, complementados pelos dados ‘menos estruturados’ do cyberespaço apropriado.

  • Allan Vieira says:

    Eu compartilhei da mesma opinião que a sua, porém hoje penso que tabelas, xmls e outros formatos digitais foram criados para armazenação de informação, possibilitando recuperar um dado já em forma de informação.
    Em uma tabela NOTA do banco de dados, temos o campo VALOR, sendo assim temos o dado estruturado, representando uma informação pronta da nota, porém temos um campo OBSERVACAO, referente a um campo de texto, aonde são informados observações em input do tipo texto como desconto de notas, transportador, juros, trocas, etcs. Como não existe um padrão na maneira como estas observações são lançadas, não é possível recuperar a informação em primeiro instante, é necessário o processamento deste dado com outros tipos de técnicas para conseguir obter alguma informação. Neste caso temos um exemplo simples de tipo de dados estruturado e não estruturado independente de sua fonte de armazenamento.
    No exemplo de imagens e videos, não tem sentido justificar que eles são dados estruturados somente por que estes arquivos podem ser visualizados e ou editados em softwares especificos, qual informação podemos retirar do conteúdo de uma imagem sem precisarmos utilizarmos técnicas avançadas de processamento de dados não estruturados?
    Acho que quando criaram este termo, deveriam ter escolhido o nome de informação estruturada e informação desestruturada, acho que faria mais sentido.