Introdução
A Ciência de dados, ou data science, em inglês, é uma área que existe há 30 anos, porém, apenas nos últimos anos ela vem ganhando fama e garantindo um lugar no mercado.
Tudo o que realizamos é uma ação, e isso pode ser transformado em dados. Uma curtida ou comentário no Linked In (também chamado de engajamento) é suficiente para o software direcionar seus interesses de forma mais concisa e eficiente. E a cada 10 minutos, o volume de dados gerados no mundo todo é maior que o volume de dados gerados desde a pré-história até o ano de 2003.
Todo esse acúmulo de dados só foi possível graças ao avanço da tecnologia que, desde a década de 70, tem dobrado sua capacidade de processamento a cada dois anos. Assim, surgiu um novo conceito, chamado “Big Data”. O cientista de dados utiliza a análise preditiva, que tenta descobrir o que vai ou pode acontecer.
Ciência de dados e sua relação com a estatística
A Estatística é uma esfera da Matemática. Ela trabalha com a coleta e classificação de dados com a intenção de inferir uma população a partir de uma determinada amostra que a representa. Assim, os cientistas de dados usam as ferramentas da estatística para resumir os dados e chegar a uma solução ideal para decisões.
David Morganstein, presidente da ASA (American Statistical Association), sua tradução: “Associação americana de estatística”, deu o seguinte depoimento:
“Através desta declaração, a ASA e seus membros reconhecem que a ciência de dados abrange mais do que estatísticas, mas, ao mesmo tempo, também reconhece que a ciência estatística desempenha um papel fundamental no rápido crescimento deste campo. É nossa esperança que esta declaração possa reforçar a relação de estatísticas para a ciência de dados e ainda fomentar relacionamentos mútuos de colaboração entre todos os contribuintes na ciência de dados.”
Assim, podemos perceber como às duas áreas se complementam no estudo de dados e estatística. Pois, o avanço da tecnologia nos leva a utilizar novos programas para lidar com essa nova realidade do mercado.
Quais as linguagens de programação mais utilizadas?
A resposta pode variar bastante, todavia, quatro linguagens se destacam: Phyton, R, SQL e Scala; porém, a primeira tem conquistado a preferência dos profissionais da área e das grandes empresas.
Phyton não é uma linguagem tão nova, ela foi concebida na década de 80 por Guido Van Rossum, na Holanda, entretanto, ela é uma das linguagens que mais possuem uma ampla biblioteca, recursos que facilitam a implementação dos processos. Python também é considerada uma linguagem simples já que foi criada para ser de fácil compreensão. Logo, a comunicação entre as pessoas se torna mais compreensível e isso permite uma melhor troca de ideias, apesar disso sua visualização não é tão boa comparada a linguagem R, mas vem se aperfeiçoado cada dia mais.
Assim sendo, a ciência de dados está cada vez mais consolidada e buscando conhecimento a partir de uma quantidade grande e pesada de dados, que podem ser usadas para tomar decisões e fazer previsões, e não simplesmente a interpretação de números.
É por esse motivo que o mercado está cada vez mais em busca de cientistas de dados. Já que possuem requisitos como estatística e ciências da computação.
Dado essa demanda, o ICMC, Instituto de Ciências Matemáticas e de Computação, já conta com uma ênfase de ciências de dados no curso de estatística que, no futuro, fará parte do currículo integral do aluno para atender essa necessidade do mercado. Assim, o aluno sairá qualificado e pronto para resolver os problemas existentes nessa área tão nova, mas tão emocionante.