As definições de hoje de ‘Data Shelf-Life’ podem não ser necessariamente verdadeiras para amanhã

Thoran Rodrigues*

18 de maio de 2021 | 03h00

A ideia de que os pontos de dados possuem uma “data de validade” inerente , após a qual qualquer insight ou informação derivada deles pode ter problemas, é amplamente aceita…ao menos em teoria. Assumindo que os dados são uma proxy ou, pelo menos, um componente do conhecimento (a ser complementado pela experiência, observação e instinto humano – julgamento ou intuição, por exemplo) a frequência com que uma organização atualiza seus dados pode impactar diretamente o seu desempenho no mercado.

E não podemos minimizar a importância dos dados. Já em 2017, a Economist os descreveu como o “novo petróleo”, capaz de mover negócios e organizações, criar vantagens competitivas ou até mesmo novos produtos e serviços. Os fluxos de dados criaram novas infraestruturas, novos negócios, novos monopólios, novas políticas e, crucialmente, novas economias. Ao contrário dos recursos naturais tradicionais, no entanto, informações digitais não são finitas; podem ser extraídas, refinadas, processadas, compradas e vendidas de diferentes formas, repetidas vezes, gerando um valor potencialmente infinito. Os dados mudaram as regras do mundo de negócios, exigindo novas abordagens e arcabouços regulatórios dos reguladores e do governo. Nos próximos anos, muitas batalhas ainda serão travadas sobre quem deve possuir e, no final, se beneficiar dos dados.

Apesar de toda sua infinitude e capacidade de transformação, os dados ainda têm uma “vida útil”, e este conceito é profundamente relevante para todas as suas aplicações. Compreender as especificidades de como essa vida útil se aplica às organizações, ao mercado e à sociedade em geral, é fundamental para garantir que o valor gerado a partir dos dados seja maximizado.

O prazo de validade é uma função das diferentes características dos dados. A primeira, e mais óbvia, é o tipo de informação. As informações de identificação pessoal de um indivíduo – seu número de CPF ou data de nascimento, por exemplo – dificilmente mudam com o tempo e, uma vez coletadas, podem ser armazenadas indefinidamente sem grandes preocupações. Outros tipos de dados, como relações de trabalho, são muito menos estáveis. Se as pessoas mudarem de emprego a cada cinco anos ou mais, o prazo de validade para esse tipo de informação é, na melhor das hipóteses, de cinco anos. E outros tipos são ainda mais sensíveis à passagem do tempo. Uma pontuação de crédito, por exemplo, pode mudar drasticamente em poucos minutos com base nas ações realizadas por um indivíduo. Seu prazo de validade é de alguns minutos ou horas. E podemos encontrar dezenas de exemplos de prazos ainda mais curtos.

A vida útil de um dado também é muito afetada pela forma como esse dado vai ser utilizado. Vejamos, por exemplo, dados baseados em localização: a informação de onde você está em um determinado momento, coletada de um dispositivo móvel ou de uma rede Wi-Fi a qual você se conectou. Se uma empresa estiver interessada em anunciar serviços ou produtos locais com base nessa localização, o prazo de validade dos dados é muito pequeno.

Você pode permanecer no mesmo lugar por alguns minutos ou horas, mas depois vai se mover, e esses dados não serão mais úteis para esse propósito. Os mesmos dados de localização podem, no entanto, ser utilizados para descobrir onde uma pessoa mora e onde trabalha. Coletando muitas instâncias dos dados de geolocalização ao longo do tempo, você pode ver o lugar onde a pessoa passa suas noites, e onde ela passa seus dias de semana no horário comercial e, assim, fazer deduções sobre sua casa ou local de trabalho. Esta análise pode ser feita mesmo com dados de localização muito antigos (um ano ou mais). Para exatamente os mesmos dados, a vida útil é muito curta para uma aplicação e muito longa para outra.

O prazo de validade, portanto, varia de acordo com o tipo do dado, bem como com a sua aplicação e uso. Essas não são as únicas variáveis. Como será que as normas sociais mais amplas podem afetar esse prazo e gerar consequências mais graves pelo seu desrespeito?

Vamos olhar para as situações relacionadas à idade, por exemplo. Nestes casos, a utilização de dados para além do seu prazo de validade pode ter consequências graves para a relação de uma empresa com os seus clientes: qual jovem de 17 anos vai apreciar um desconto num drink que legalmente não pode adquirir? Qual adolescente de 15 anos vai gostar de receber um manifesto político, quando ainda não tem idade legal para exercer seu voto?
Ambos os exemplos demonstram o impacto das normas sociais sobre a validade – a vida útil efetiva – dos dados. Na realidade, essas normas e práticas estão em um estado de fluxo constante, e essas mudanças têm um impacto direto na vida útil de um dado.

Considere o conceito de ‘emprego’ ou ‘empregador’. Como parâmetros, tais dados podem direcionar ações imediatas (para atingir uma determinada categoria ou setor), ou demonstrar tendências comportamentais ou de consumo de longo prazo. Cerca de 20% dos profissionais latino-americanos atualmente se descrevem como “freelancers”, o que significa que provavelmente trabalharão para vários empregadores, muitas vezes, simultaneamente. Essa tendência reflete a disseminação e a crescente formalização da chamada “gig economy” da região como uma escolha de carreira consciente para graduados cada vez mais qualificados.

Assim, o conceito tradicional de ‘empregador’ ou até mesmo de ‘emprego’ pode ter pouca relevância para este grupo, apesar do fato de que pode representar um mercado prioritário para muitas marcas. Nesse sentido, a categoria (e não apenas o ponto de dados) pode ter ultrapassado sua vida útil efetiva, ao menos em um sentido convencional. Talvez, o conceito de emprego deva ser considerado de forma mais flexível – trabalho qualificado/especializado, gerando múltiplas fontes de receita, por exemplo – para ampliar a relevância e a vida útil efetiva deste tipo de dado.

Outro exemplo se refere ao conceito de status e identidade pessoal. No Brasil, durante muitos anos, o casamento (um evento temporal) afetava diretamente os dados pessoais dos indivíduos, com grande parte das mulheres assumindo um ou mais sobrenomes do marido. Conforme a definição do casamento se expandiu para cobrir casais não-binários e outras variações, e conforme as próprias tradições e expectativas associadas com o casamento se alteraram, esse tipo de alteração mudou, afetando diretamente a vida útil de um dado específico (o nome). O próprio conceito do “gênero” se alterou para incluir opções não-binárias, abrindo a possibilidade de indivíduos cadastrarem múltiplos nomes (nomes sociais) sob seus CPFs. Assumir o gênero de um indivíduo com base no nome, ou até mesmo processos tradicionais de validação de identidade, não podem mais ser baseados nas categorizações tradicionais, cujo prazo de validade já expirou.

Esta é a essência e o desafio da “vida útil” dos dados. Ela é igualmente afetada por atributos intrínsecos da informação sendo trabalhada e por fatores externos, como as mudanças de normas sociais. Para dominar esse conceito e extrair o máximo de valor de seus ativos de dados, as empresas precisam mudar a forma como entendem e enxergam a evolução dos dados ao longo do tempo.

*Thoran Rodrigues, CEO da BigDataCorp

Tudo o que sabemos sobre:

Artigo

Comentários

Os comentários são exclusivos para assinantes do Estadão.