Luz Santos - Educação e Sustentabilidade

Bilhões de dados e um padrão
Qui, 06 de Janeiro de 2011 06:26
ShareFundado em 2001, o Mecanismo Global de Informação em
Biodiversidade (GBIF, na sigla em inglês) é a maior iniciativa
multilateral voltada para disponibilizar dados sobre biodiversidade na
internet com acesso livre. Envolvendo 55 países, o mecanismo ainda não
conta com o Brasil entre seus signatários. Mas, para o
secretário-executivo do GBIF, Nicholas King, a adesão brasileira é
questão de tempo. Segundo ele, a publicação dos dados científicos em
uma plataforma padronizada global poderá ser importante para as
discussões em torno da implementação do Protocolo de Nagoya no aspecto
que mais interessa ao Brasil: o acesso e repartição de benefícios
provenientes da exploração da biodiversidade.
------------------------------

--------------------------------------------------
O GBIF se destaca por ter desenvolvido protocolos e padrões inovadores
capazes de garantir a integridade e a interoperabilidade de bancos de
dados heterogêneos espalhados por todo o planeta. A arquitetura
informacional do mecanismo permite a interconexão de diversos tipos de
dados de fontes diferentes, segundo King.

Nascido no Quênia e criado na África do Sul, King é graduado em
biologia, ecologia e geografia e fez seu doutorado em gerenciamento de
tecnologia, especificamente voltado à gestão de recursos naturais.
Completou sua formação acadêmica nos Estados Unidos e na Inglaterra e
se tornou o líder do GBIF em 2007.

Em dezembro, King esteve no Brasil para participar da conferência
internacional Getting Post 2010 – Biodiversity Targets Right,
realizada pelo Programa Biota-FAPESP, pela Academia Brasileira de
Ciências (ABC) e pela Sociedade Brasileira para o Progresso da Ciência
(SBPC). Na ocasião, apresentou uma palestra sobre a interoperabilidade
e integração de bancos de dados sobre biodiversidade.

Agência FAPESP – Quais são os principais desafios relacionados ao
compartilhamento de dados sobre biodiversidade?
Nicholas King – Há um certo número de desafios para se compartilhar
informações e conseguir uma interoperabilidade entre os bancos de
dados. Eu diria que eles estão concentrados em três vertentes
fundamentais da noção de compartilhamento: os dados propriamente
ditos, o sistema e as pessoas. Todos são necessários, mas nenhum é
suficiente.

Agência FAPESP – Quais são as dificuldades relacionadas aos dados?
King – Há conjuntos de dados ao redor de todo o mundo, com
características muito distintas entre eles. O único ponto em comum é
que nunca são captados com a intenção de serem compartilhados. Por
isso, são capturados com diferentes formatos e técnicas. Muitas vezes
em diferentes línguas. São obtidos, por vezes, sob diferentes sistemas
de gerenciamento. Variam também os sistemas métricos – os registros
podem ser feitos em polegadas e pés ou no sistema métrico decimal. Há
também sistemas de georreferenciamento muito distintos. A linguagem
muda, com diferentes nomes usados para diferentes lugares –
eventualmente até mesmo nomes distintos para um mesmo país. Não
podemos apenas pegar esses dados, colocá-los juntos e operá-los. Eles
são totalmente incompatíveis. Eles simplesmente não se combinam.

Agência FAPESP – Qual seria a solução para isso?
King – Há uma analogia simples com uma situação comum para quem viaja
muito ao redor do mundo: você quer ter acesso à eletricidade, mas o
plugue de que dispõe simplesmente não encaixa na tomada de um hotel,
por exemplo. É necessário, então, ter algum tipo de adaptador. E é bem
isso o que precisamos para os dados: que sejam reformulados em um
formato padronizado, de modo que possam ser acessados.

Agência FAPESP – O GBIF procura fazer o papel de um adaptador?
King – Esse adaptador seria o que chamamos de arquivos Darwin Core, um
padrão global para dados que foi desenvolvido para facilitar a
descoberta, a recuperação e a integração de informações sobre
espécimes biológicos ou ocorrência espaço-temporal. Mas, ao longo do
tempo, o Darwin Core acabou fornecendo uma referência estável e
padronizada para compartilhar informações sobre biodiversidade.

Agência FAPESP – Como é o funcionamento desse padrão?
King – Ele funciona como um glossário de termos que fornece definições
semânticas estáveis, de forma que possam ser reutilizadas em inúmeros
contextos. O Darwin Core serve como base para a construção de formatos
mais complexos de intercâmbio de informação, garantindo a
interoperabilidade de um conjunto comum de termos. Os arquivos nesse
padrão dispõem os dados em um arranjo lógico com uma geometria
semelhante à de uma estrela, em que cada arquivo-núcleo está cercado
por um grande número de extensões. Cada registro de extensão remete
para um arquivo-núcleo. Isso permite compartilhar conjuntos de dados
inteiros.

Agência FAPESP – Além da questão dos dados, quais são os desafios
relacionados ao sistema?
King – A tecnologia da informação propriamente dita é uma questão à
parte. Você não pode ter acesso aos dados se não estiver conectado com
a internet, por exemplo. Mas, para isso, é preciso encontrar soluções
de modo que se tenha conectividade, largura suficiente de banda,
capacidade de processamento computacional e assim por diante.
Precisamos dos canais que permitam os dados fluírem. É a questão da
infraestrutura que se sobrepõe à questão de como lidar com os dados. O
terceiro componente crítico é a disponibilidade de recursos humanos.

Agência FAPESP – Qual o gargalo nesse aspecto?
King – Precisamos de gente que entenda, que seja capaz de utilizar
bases de dados e que consiga lidar com questões de tecnologia da
informação. Temos carência de pessoal capaz de utilizar os dados para
fazer análises. Uma vez que se tem acesso aos dados, temos que saber o
que fazer com eles. É fundamental entender a informação biológica e
saber como interpretá-la. Necessitamos de capacidade humana e de
infraestrutura e que os dados estejam em certos formatos para que
possam ser usados. Há ainda uma quarta questão, relacionada ao que
chamamos de compromisso político.

Agência FAPESP – No sentido institucional?
King – Sim, é preciso haver integração entre instituições, empresas,
governos e outros para que se possa compartilhar dados. Às vezes,
certos dados são sensíveis porque têm valor econômico, ou importância
crucial para a conservação. Então, temos que contar com políticas de
acordos institucionais e internacionais para que se tenha capacidade
de compartilhar esses dados. Acho que esses são os quatro componentes
fundamentais para que seja possível a interoperabilidade dos bancos de
dados.

Agência FAPESP – Para conectar os conjuntos de dados de diversos
países é preciso fazer com que eles se adaptem a uma só padronização,
na mesma linguagem?
King – Não é tão necessário ter uma só linguagem, contanto que
tenhamos softwares capazes de fazer essa “tradução”. Essencialmente,
nos dados sobre espécies temos uma linguagem universal, que é o nome
da espécie em latim. Isso é o uso corrente em diferentes países. Há
nomes vulgares e diferentes nomes regionais, ou em línguas diferentes,
mas, fundamentalmente, podemos mapear todas as espécies a partir de
seus nomes latinos. Fora isso, a única questão é o padrão dos dados,
sobre o qual estávamos falando. Essencialmente, o que a padronização
de dados coloca em questão é uma língua única para os campos de
indexação. Se completamos esses campos de dados convenientemente,
então eles podem se harmonizar por todo o mundo.

Agência FAPESP – O rastreamento dos dados dentro desse mecanismo é
simples, mesmo com toda a complexidade da interoperabilidade?
King – Um ponto importante é que, se você está interessado em
determinadas informações pontuais, não precisa acessar toda a base de
dados. Os arquivos Darwin Core permitem que, se estiver interessado em
uma espécie de ave, você só encontre registros sobre aquela espécie
quando insere determinado critério de busca sobre a espécie. Não é
preciso cair em um conjunto de dados sobre todas as espécies de aves
do Brasil, da Venezuela ou da Colômbia, por exemplo. E não é
necessário vasculhar tudo para extrair a informação. O computador pode
ser programado para buscar apenas aqueles dados específicos do
conjunto total. Há bilhões e bilhões de conjuntos de dados e um humano
não poderia filtrar isso.

Agência FAPESP – Como funciona o GBIF? Os 55 países enviam dados, ou
todos têm acesso a uma forma de conectar seus bancos de dados?
King – O país assina um memorando padrão de entendimento, desenvolvido
pelo conselho de administração do GBIF. Nesse memorando está declarado
que deixarão os dados completamente acessíveis, que vão arcar com os
custos de publicação e que vão configurá-los para acesso pela
internet, entre outros pontos. Os dados não são enviados de qualquer
maneira, eles devem ser reformatados para o código do Darwin Core e
isso permite que fiquem disponíveis para que qualquer um possa
encontrar a informação.

Agência FAPESP – Os dados não são armazenados de forma centralizada?
King – Não. É basicamente como um sistema de busca. No Google, você
digita determinado critério para a informação e o buscador vai atrás
dela. Não há uma base de dados central para o Google. É exatamente
como funciona conosco. Os dados permanecem com os proprietários, com
as instituições de pesquisa, e são simplesmente publicados nesse
formato. Quando você coloca determinado critério na busca, ele procura
aquele dado. Não há uma compilação central de conjuntos de dados, mas
sim uma forma bem atualizada de fazer as coisas. Centralizar os dados
em uma base central traz uma dúvida quanto à segurança. Além disso,
essa base pode ficar desatualizada em relação ao banco de dados
original. É muito mais fácil que os proprietários mantenham os dados.
Isso também permite que eles decidam que dados vão manter públicos e
quais permanecerão secretos.

Agência FAPESP – O Brasil não faz parte dos 55 países signatários, mas
há instituições brasileiras participando?
King – O Brasil não está no GBIF, por não ter assinado o memorando. É
uma decisão que tem que ser feita em nível federal, por algum tipo de
departamento de governo, que vai designar uma instituição para ser o
órgão de coordenação. Mas não fazer parte dos signatários não impede
que os brasileiros possam acessar a informação sobre o país através do
mecanismo. O acesso é realmente aberto. Por isso, só em 2010, tivemos
33 mil visitas de computadores baseados no Brasil. Há um conjunto de
dados geograficamente referenciados no Brasil de cerca de 1,5 milhão
de registros, que são mantidos por instituições de pesquisa fora do
país. Há também certas instituições brasileiras que talvez estejam
compartilhando dados – seja diretamente com o GBIF, seja por meio de
outras instituições. Por exemplo, o Sistema de Informações
Biogeográficas dos Oceanos [Obis, na sigla em inglês], que fornece
muita informação publicada nos padrões do GBIF, disponibiliza muitos
dados sobre o Brasil.

Agência FAPESP – Qual é a importância da adesão brasileira ao GBIF?
King – É muito importante, sem dúvida, devido à imensa biodiversidade
no país e a qualidade da pesquisa feita por aqui. Essa importância se
torna ainda maior com o Protocolo de Nagoya, que estabelece o
Protocolo sobre o Acesso e Repartição dos Benefícios [ABS, na sigla em
inglês] provenientes da exploração da biodiversidade. Será preciso
estabelecer um regime legal em torno dessa questão e, para isso, é
fundamental dispor de meios padronizados para gerenciar a informação.
Porque, de outra maneira, haverá desafios legais em torno da má
interpretação de informações. O conhecimento indígena, por exemplo,
deverá ser tratado e referido da mesma maneira em todo o mundo. Vamos
precisar interpretar esse conhecimento indígena em uma linguagem
científica padronizada para discutir a propriedade intelectual desse
conhecimento indígena. Tudo isso será muito complexo e o livre acesso
à informação padronizada deverá ajudar bastante.

Agência FAPESP

Luz Santos - Educação e Sustentabilidade

sábado, 12 de fevereiro de 2011

Nenhum comentário:

Postar um comentário