Você é um cientista de dados de verdade?

-->
Atualmente ser um cientista de dados é uma posição almejada por muitos jovens e essa profissão foi considerada "The Sexiest Job of the 21st Century". Contudo grande parte das pessoas que estão ou querem entrar nessa carreira tão famosa, focam apenas em querer saber sobre métodos de Aprendizado de Maquina (Machine Learning - ML) ou Inteligência Artificial (IA). 
O que a grande maioria das pessoas parece não saber é que, trabalhar com dados ou ser um cientista de dados não é somente aplicar modelos como o tão famoso deep learning. Trabalhar com dados é quase como uma cruzada, uma longa jornada em que leva tempo para chegar na parte de aplicação do modelo e muitas vezes nem se chega. A ciência de dados não é tão nova quanto parece, ela foi definia em 1996 por um grupo de pesquisadores com o nome de KDD que na proposta original se traduz para Kowledge Discovery in Database e atualmente é usado como Knowledge Discovery in Data. O artigo em questão é "Fayyad, Usama, Gregory Piatetsky-Shapiro, and Padhraic Smyth. From data mining to knowledge discovery in databases. AI magazine 17.3 (1996): 37. (pdf)"
Neste artigo os autores descrevem o KDD como um workflow que deve ser seguido para conseguir extrair conhecimento dos dados. Esse workflow é apresentado na Figura abaixo: 
https://writelatex.s3.amazonaws.com/bfkhqjgvgfsm/uploads/938/4689794/2.jpg
KDD Process

KDD é um processo iterativo e interativo que possui varias etapas, sendo a mais conhecida a de "Data Mining" ou mineração de dados. Contudo a etapa mais importante é a de preparação dos dados. Podemos dizer que esta etapa é o coração do processo de KDD afinal sem dados de qualidade não há resultados de qualidade por melhor ou mais sofisticado que seja o seu modelo.
Entretanto, muitos profissionais dessa área parecem estar tão interessados em aprender sobre modelos e métodos que negligenciam o processo de KDD e trocam a parte pelo todo. Isto é, focam apenas na etapa de Data Mining.  
A tarefa de preparação que inclui, limpeza, seleção e transformação dos dados ocupa cerca de 60% a 80% de todo o pipeline de KDD. Esse fato foi primeiramente apresentado no livro "Adriaans, P., Zantinge, D. (1996). Data Mining. Harlow. England: Addison Wesley." e posteriormente comprovado por meio de um estudo e apresentado  em uma reportagem da Forbes (Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says).
Preparar os dados não é uma tarefa fácil, há a necessidade de se trabalhar como o especialista de domínio, saber técnicas computacionais e estatísticas e ter um bom senso apurado. Contudo sendo a parte mais amada ou odiada não importa, se você quer ser um verdadeiro Cientista de Dados é uma parte importante na qual deve se dedicar e aprender. E como? Da mesma maneira que esta se fazendo para aprender novos modelos e métodos, através de livros e cursos. Hoje a uma infinidade de material disponível online, basta querer.

Comentários