-->
Atualmente
ser um cientista de dados é uma posição almejada por muitos jovens e essa
profissão foi considerada "The Sexiest Job of the 21st Century".
Contudo grande parte das pessoas que estão ou querem entrar nessa carreira tão
famosa, focam apenas em querer saber sobre métodos de Aprendizado de Maquina
(Machine Learning - ML) ou Inteligência Artificial (IA).
O que
a grande maioria das pessoas parece não saber é que, trabalhar com dados ou ser
um cientista de dados não é somente aplicar modelos como o tão famoso deep learning. Trabalhar com dados é
quase como uma cruzada, uma longa jornada em que leva tempo para chegar na
parte de aplicação do modelo e muitas vezes nem se chega. A ciência de dados
não é tão nova quanto parece, ela foi definia em 1996 por um grupo de
pesquisadores com o nome de KDD que
na proposta original se traduz para Kowledge
Discovery in Database e atualmente é usado como Knowledge Discovery in Data. O artigo em questão é "Fayyad,
Usama, Gregory Piatetsky-Shapiro, and Padhraic Smyth. From data mining to
knowledge discovery in databases. AI magazine 17.3 (1996): 37. (pdf)"
Neste
artigo os autores descrevem o KDD como um workflow que deve ser seguido para
conseguir extrair conhecimento dos dados. Esse workflow é apresentado na Figura
abaixo:
KDD Process |
KDD é
um processo iterativo e interativo que possui varias etapas, sendo a mais
conhecida a de "Data Mining" ou mineração de dados. Contudo a etapa
mais importante é a de preparação dos dados. Podemos dizer que esta etapa é o
coração do processo de KDD afinal sem dados de qualidade não há resultados de
qualidade por melhor ou mais sofisticado que seja o seu modelo.
Entretanto,
muitos profissionais dessa área parecem estar tão interessados em aprender
sobre modelos e métodos que negligenciam o processo de KDD e trocam a parte
pelo todo. Isto é, focam apenas na etapa de Data Mining.
A
tarefa de preparação que inclui, limpeza, seleção e transformação dos dados ocupa
cerca de 60% a 80% de todo o pipeline de KDD. Esse fato foi primeiramente
apresentado no livro "Adriaans,
P., Zantinge, D. (1996). Data Mining. Harlow. England: Addison Wesley."
e posteriormente comprovado por meio de um estudo e
apresentado em uma reportagem da Forbes (Cleaning
Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says).
Preparar
os dados não é uma tarefa fácil, há a necessidade de se trabalhar como o
especialista de domínio, saber técnicas computacionais e estatísticas e ter um
bom senso apurado. Contudo sendo a parte mais amada ou odiada não importa, se
você quer ser um verdadeiro Cientista de Dados é uma parte importante na qual
deve se dedicar e aprender. E como? Da mesma maneira que esta se fazendo para
aprender novos modelos e métodos, através de livros e cursos. Hoje a uma
infinidade de material disponível online, basta querer.
Comentários