quinta-feira, 9 de novembro de 2017

Projeto Big Data


Muitas empresas estão se movimentando em busca de soluções com BIG DATA, mas o que é isso e como podemos iniciar um projeto desses?

Em primeiro lugar o termo BIG DATA apesar de estar na moda não é novo. Se trata de trabalhar com grande quantidade de dados para extrair informações para a tomada de decisão. O que é novo é a quantidade e variedade de dados que atualmente, com o advento da internet e comunicação móvel de diversos formatos, são geradas a todo momento.

Acrescenta-se a isso a Internet das Coisas ou simplesmente IOT (Internet of Things), onde os dispositivos geram mais e mais informações por segundo. Aumentando consideravelmente a quantidade de dados a serem analisados.

É importante saber que para executar projetos de BIG DATA devemos pensar em uma equipe multidisciplinar para trabalhar as informações, analistas de dados, analistas de negócios, estatísticos, estão dentre as profissões ou competências necessárias para os profissionais dessa área. No meio tecnológicos quem possuem todas essas habilidades e chamado de cientistas de dados e são comparados a unicórnios pela dificuldade de se encontrar no mercado.

Mas como começar? Esta tudo ai para ser utilizado de forma espalhada e não estruturada, estão mais para um BANDO do que um BANCO de DADOS.

Primeiro precisamos formular uma hipótese, algum assunto ou pergunta que se deseja responder. Cada pergunta possui uma forma diferente de ser respondida é sempre será o início de todos trabalho.

Logo em seguida precisamos identificar qual a fonte de informação será mais relevante para responder a hipótese formulada. Podemos utilizar, por exemplo, as redes sociais como: Facebook, Twitter, Linkedin, Instagram. Dependendo da hipótese alguma, ou até a combinação entre elas, pode fornecer maior resultado. Em alguns casos as dados internas de sistemas podem ser utilizadas como origem das informações para o trabalho.

O próximo passo é a higienização dos dados obtidos. Cada fonte de dados possui a sua própria maneira de ser armazenada. Esse trabalho é um verdadeiro "garimpo", pois trata-se de escolher o que é relevante ou não para a hipótese que esta sendo estudada. É um trabalho que muitas vezes precisa ser feito e refeito para que seja possível encontrar algo de valioso nos dados obtidos. Nessa fase, por vezes detectamos que precisamos reformular a hipótese inicial ou derivar a mesma para outros "achados".

Nesse momento já devemos ter uma arrumação da informação que possibilita alguma analise e insights e montamos relatório com conclusões preliminares para apresentação. As conclusões devem ser validadas pois é muito comum encontrarmos "falsos positivos" ou relações sem relevância nenhuma para a tomada de decisão.

Todo o trabalho apesar de ser muito técnico é também deveras artesanal e a experiência da equipe envolvida conta muito nos resultados finais.

Tudo acima tem que ser feito com muita rapidez pois algumas informações obtidas são voláteis e se houver demora podem não serem úteis quando obtidas

Marcelo Miranda

Nenhum comentário:

Postar um comentário