A Web dos Dados

15 out de 2017, por OKBR

Compartilhar

Por Thiago Ávila e Judson Bandeira*

Conforme exploramos no artigo anterior, as perspectivas para a produção de dados nos próximos cinco anos (2020) é animadora e desafiadora. Se por um lado a oferta de dados digitais deverá crescer exponencialmente, por outro lado, um percentual significativo destes dados podem não ser úteis para coisa alguma.

As arquiteturas tradicionais para armazenamento de dados, especialmente na era pré-internet, foram sendo estabelecidas para armazenar os dados, em arquivos, isolados do mundo externo, caracterizando verdadeiras ilhas de dados e informações. Decorrente deste modelo, inúmeros problemas surgiram, especialmente a redundância de dados, que por sinal é um problema existente até os dias de hoje. Ao longo dos anos, o armazenamento de dados evoluiu para a criação dos bancos de dados, e posteriormente modelos de agrupamento como os sistemas de bancos de dados distribuídos e as federações de bancos de dados[1].

Paralelamente, em meados de 1996, Tim Berners-Lee publicou o artigo “The World Wide Web: Past, Present and Future [2] que definiu as diretrizes da Web, como ela devia ser na época e como ela deveria ser no futuro. Já naquela época, há quase 20 anos, Berners-Lee estabeleceu que a Web deveria ser um espaço de compartilhamento de informações para que pessoas (e máquinas) possam se comunicar entre si. Complementarmente, ele previu a existência da interação entre pessoas e hipertextos intuitivos e legíveis por máquina.

Entretanto, a Web que conhecemos hoje foi se estruturando a partir do hipertexto, conhecidas como páginas web, tendo como principal foco a apresentação de informações. Apesar de Tim Berners-Lee ter previsto a leitura dos dados por máquina, a Web atual é prioritariamente interpretada por humanos.

A partir da Web, inúmeras possibilidades de produção de informações foram se desenvolvendo ao longo do tempo. Páginas HTML, sítios, portais, conteúdo multimídia, arquivos diversos e mais recentemente com a “era social”, os blogs, mídias sociais, dentre outros. Ou seja, a Web se tornou um espaço global de informações que cresce a cada dia.

Com o volume de informações crescente, surgiram outros problemas relevantes relacionados à busca e recuperação de informações. Rapidamente, a capacidade humana de encontrar informações na Web ficou muito limitada evidenciando a preocupação de que a localização e recuperação de dados na web deveriam ser feita por máquinas, mas faltavam dados sobre as informações que fossem entendidas por máquinas. Estes dados são conhecidos como metadados. Ademais, a Web atual é sintática, cuja busca é feita prioritariamente por palavras-chave num grande número de páginas obtendo baixa precisão. Além disso, as páginas de integram e se “linkam” de forma pouco estruturada e de forma manual.

Como resultado, nem todos os dados podem ser encontrados por meio dos mecanismos de busca tradicional na web, muito menos é possível se especificar consultas complexas sobre os dados que estejam presentes em várias páginas, como por exemplo, “Qual o nome completo de todos os capitães dos times de futebol vencedores de todas as Copas do Mundo?”. Ou seja, assim como no tempo dos arquivos, os dados na Web ainda vivem isolados uns dos outros.

Felizmente, várias instituições e pesquisadores ao redor do mundo estão muito atentos a este paradoxo, entre elas e especialmente o W3C – World Wide Web Consortium. O W3C tem como missão liderar a WWW para o uso máximo do seu potencial, desenvolvendo protocolos e guias que apoiem o desenvolvimento da Web em larga escala. Sua visão para a Web envolve a participação, compartilhamento de conhecimentos apoiando a construção de uma confiança em escala global. Esta visão estabelece ainda a existência de uma única Web (One Web), que adota princípios e padrões abertos.

Não preciso explicar muito sobre qual relação à Web tem a ver com a grande oferta de dados em escala global, não é? Afinal, por onde trafegam a maioria destes bilhões e trilhões de dados distribuídos mundialmente?

Buscando alcançar esta visão, o W3C vem trabalhando fortemente na construção de uma nova Web, que atenda aos princípios e padrões abertos e que vá muito além da Web que conhecemos composta prioritariamente por arquivos e páginas HTML. Esta nova Web, mais conectada e aberta está sendo denominada a “Web dos Dados”.

Na “Web dos Dados”, estipula-se que os dados passem a ser facilmente localizáveis bem como sejam associados a elementos semânticos, como os vocabulários. Além disso, os dados passam a serem entendidos como recursos de dados e para tal, precisam de identificadores exclusivos que viabilizem o acesso específico para cada recurso. E ainda, a forma como os dados passam a se relacionar entre si muda dos tradicionais esquemas de tabelas e bancos de dados para um esquema de sujeito-objeto-predicado, conhecido como tripla, dentre outros avanços.

Felizmente, apesar da problemática do artigo anterior, as perspectivas podem ser promissoras considerando todo este maravilhoso trabalho que vem sendo desenvolvido por inúmeros especialistas mundo a fora sob a coordenação do W3C. Nos próximos artigos, estaremos explorando ainda mais a Web dos Dados, buscando entender como ela está sendo estruturada, os novos conceitos e aplicações relevantes.

Até a próxima!!!

* Estes artigos contam são oriundos de pesquisas científicas desenvolvidas no Núcleo de Excelência em Tecnologias Sociais (NEES), do Instituto de Computação da Universidade Federal de Alagoas (UFAL) e contam com a contribuição direta dos pesquisadores Dr. Ig Ibert Bittencourt (UFAL), Dr. Seiji Isotani (USP), e Armando Barbosa, Danila Oliveira, Judson Bandeira, Thiago Ávila e Williams Alcântara (UFAL).

[1] Ribeiro, Danusa; Lóscio, Bernadette; Souza, Damires (2011). Linked Data: da Web de Documentos para a Web de Dados. V ERCEMAPI – Escola de Computação Ceará, Maranhão e Piaui. Disponível em: http://pt.slideshare.net/danusarbc/linked-data-da-web-de-documentos-para-a-web-de-dados-10057267

[2] Berners-Lee, Tim (1996). The World Wide Web: Past, Present and Future. Disponível em:  http://www.w3.org/People/Berners-Lee/1996/ppf.html

Texto publicado no site Thiago Ávila. Ele faz parte da série de artigos Dados abertos conectados.