O futuro dos Dados Abertos Conectados

Como os “Dados Abertos Conectados” podem ajudar a solucionar problemas de armazenamento e quais as dificuldades para se trabalhar com esse conceito no Brasil? Este será o tema do curso de Armando Barbosa e Judson Melo Bandeira na Web.br 2015.

Participantes do Núcleo de Excelência em Tecnologias Sociais (NEES) e proprietários da Linked Knowledge (LinKn), eles abordarão o futuro dos dados abertos e quais impactos eles terão na Web. Para se ter uma ideia, estima-se que em 2020 o total de dados chegará a 40 Zettabytes (trilhões de gigabytes). Mas como se preparar para essa enxurrada de volumes abertos?

Na entrevista abaixo, Armando e Judson dão uma prévia do tema e relatam como vão tratar do assunto na conferência. Confira os principais trechos:

Qual é o cenário e as novas tendências em torno dos dados abertos conectados?
Armando e Judson:
Atualmente, grandes quantidades de dados são produzidos por cidadãos, aplicações, instituições públicas (entre outros) todos os dias. Essa grande massa de dados, encontrada na web (ou não) está disposta em vários formatos de arquivos, como pdf, xls, csv, doc, etc. No entanto, esses dados possuem grandes limitações: são apenas consumíveis por humanos, ou seja, para que sejam entendidos, precisam de um utilitário especializado para lê-los; não são fáceis de serem acessados, procurados ou reusados por processos automatizados, dificultando a criação de aplicações que utilizam estes dados, freando assim a criação de novos empreendimentos, que refletiriam diretamente no melhoramento de serviços para a sociedade.

Capturar_DadosAbertosConectadosEste tema começa a ser uma tendência quando observamos a figura ao lado:

Observa-se que essa grande massa de dados já atingiu a casa dos Zettabytes. Como explicado, mais de 90% destes dados estão armazenados em discos rígidos, onde centenas de milhões de computadores, ininterruptamente, estão processando estes dados em busca de informação útil e relevante e, às vezes, nova. Estima-se que em 2020, o volume de dados chegará a 40 Zettabytes (trilhões de gigabytes). Diante desse cenário, cresce a preocupação pela eliminação de duplicatas de dados, estruturação dos dados e diminuição do tamanho e custo das grandes bases de dados. Dados Conectados é um tema atual e importante para resolver estas preocupações.

Quais são os pontos que mais preocupam os desenvolvedores em relação aos dados abertos conectados?
Armando e Judson: A crescente quantidade de dados produzidos tem exigido das empresas maior dedicação de recursos para explorar a informação disponível na Web. Temas como Big Data, Data Mining, além de outros temas relacionados à extração de informação estão cada vez mais presentes no cotidiano dessas empresas. Por outro lado, os desenvolvedores ainda encontram barreiras que impedem o desenvolvimento de soluções voltadas para toda a sociedade, tendo que se preocupar com a qualidade dos dados publicados, formato de consumo dessas informações, como consumir esses dados, além das preocupações inerentes à própria aplicação. No cenário atual, desenvolvedores que se dedicam a publicar dados conectados têm que se preocupar com o processo utilizado para publicação, bem como as tecnologias associadas a cada etapa desse processo, onde podemos citar modelagem dos dados, conversão de dados estruturados para dados conectados, publicação dos dados e etc.

Judson

Judson Bandeira, CEO da LinKn

Como vocês apresentarão o tema para os participantes da Web.br?
Armando e Judson: Em primeiro lugar, será mostrado o cenário da produção de dados e o problema que o aumento absurdo da produção desses dados pode causar. Em segundo lugar, será mostrado o porquê destes problemas serem decorrentes como a não-estruturação dos dados, por exemplo. Em seguida, demonstraremos como este problema pode ser resolvido, como a estruturação, utilização de padrões e conexão dos dados. Mostraremos também a definição de dados conectados e suas principais vantagens, como também a conversão de um dado não estruturado para um dado conectado, de forma prática. Ao final, como estes dados podem ser enriquecidos com ontologias. Por exemplo, a aplicação Boa Moradia, que objetiva encontrar um imóvel no melhor lugar para se viver, de acordo com o perfil do usuário, fazemos o uso de dados conectados, que tem como modelo ontologias, que buscam tornar a máquina capaz de raciocinar a respeito do perfil do usuário.

Qual a previsão para o tratamento desse tema num futuro próximo?
Armando e Judson: Como já foi visto, a grande produção de dados vai desencadear problemas como grandes bases de dados, com dados sem estruturação ou duplicados, em um universo totalmente automático, repleto de aplicações que tendem a utilizar estes dados. Dessa forma, a preocupação pela utilização de dados conectados será cada vez maior. Além disso, com a evolução da sociedade digital, teremos novas demandas de serviços digitais que vão exigir informações de origem pública e/ou privada, onde a existência de bases de dados confiáveis e conectados são pré-requisitos. Atualmente, a demanda por esse tipo de dado vem em grande parte da academia, porém, com a popularização do tema, principalmente, na indústria e governos, espera-se que a oferta e demanda de dados conectados se ampliem para além da comunidade acadêmica.

Armando Barbosa

Armando barbosa, CTO da LinKn

Qual a relação do tema com o principal foco da Web.br (re-descentralização da Web)?
Armando e Judson: Dados Conectados pode ser considerado um tema conceitual e tecnológico importante para tornar uma web mais aberta. Dados Abertos Conectados é o conjunto de boas práticas para a publicação de dados na web, que objetiva a criação de aplicações e novos empreendimentos (impulsionando a economia do país), e a melhor visualização e participação da sociedade no segmento governamental. Com o fortalecimento dos Dados Abertos, a oferta de dados na web tem ampliado muito e de forma descentralizada, trazendo novos desafios como a criação de infraestruturas de dados, por exemplo. Portanto, os Dados Conectados é um tema muito relevante por enriquecer e interligar dados de diversas fontes, origens e propósitos.

Tem alguma consideração adicional sobre o tema?
Armando e Judson: O objetivo de trazer o tema mais em pauta para a sociedade brasileira é tornar mais real a utilização de dados no formato estruturado e nos padrões do W3C, de forma facilitar aos desenvolvedores criarem aplicações que facilite a vida das pessoas, como também tornar mais próxima a relação dos cidadãos com o governo, de forma a combater a corrupção, por exemplo. Sugiro alguns grupos nas redes sociais, que somos participantes, que estão atentos à debater esse tema como a Infraestrutura Nacional de Dados Abertos [INDA-Br], Grupo brasileiro da Open Knowledge Foundation [OKFN-Br], além de grupos com o perfil mais acadêmico, como o do Núcleo de Excelência em Tecnologias Sociais, da Universidade Federal de Alagoas.