Pós-Graduação em Ciência dos Dados

Confira todas as informações sobre o seu curso de interesse.

INFORMAÇÕES ADICIONAIS

O curso de pós-graduação em Ciência dos Dados se propõe a capacitar o profissional nele interessado no uso e aplicação dos principais métodos e ferramentas de análise de dados hoje existentes, qualificando-o para este promissor mercado de trabalho.

Estrutura do Curso:

Cada módulo do curso é composto de horas aula e horas trabalho.

As horas aula compreendem a exposição do conteúdo proposto através de aulas e materiais complementares e as horas trabalho consistem na realização de exercícios práticos guiados.

As horas de trabalho desenvolvidas nos módulos dão subsídios para desenvolvimento do projeto final que será validado como trabalho de conclusão de curso. 


Profissionais das mais diversas áreas que enfrentam crescente necessidade de uso de ferramentas computacionais para a exploração e análise de dados relativos aos seus processos ou aos mercados onde atuam. São exemplos analistas de marketing, economistas, atuários, engenheiros, administradores, profissionais da saúde, advogados, comerciários, compradores, operadores logísticos, analistas diversos, estatísticos, matemáticos, geólogos, biólogos, etc


MATRIZ CURRICULAR

 

Programa do Curso:

Módulo

Conteúdo

I

Introdução à lógica de programação e Phyton

II

Estatística básica e séries temporais

III

Machine learning

IV

Introdução a Deep Learning

V

Aplicações Avançadas e outras ferramentas

VI

Projeto Final

 

MÓDULO I - INTRODUÇÃO À LÓGICA DE PROGRAMAÇÃO E PYTHON

 

As ferramentas essenciais a um cientista de dados serão apresentadas neste módulo. Estudaremos lógica de programação, passando pela construção de algoritmos, variáveis e seus tipos, funções e ainda veremos elementos de programação orientada à objetos como classes e métodos. A principal linguagem que utilizaremos é Python, uma linguagem de programação  de software livre e gratuita que vem crescendo entre os cientistas de dados devido à sua versatilidade e grande volume de bibliotecas, facilitando não só a extração e manejo de dados, como também a integração a outros sistemas e aplicativos. Análises estatísticas simples serão estudadas ao exploramos as importantes bibliotecas de Python: NumPy, SciPy, Matplotlib e Pandas.

 

MODULO II - ESTATÍSTICA BÁSICA E SÉRIES TEMPORAIS

A estatística é a base para a ciência de dados, portanto este módulo será dedicado ao estudo formal de conceitos estatísticos básicos e importantes tópicos para o tratamento de dados como: distribuições de probabilidade, o teorema do limite central e suas implicações, testes de hipótese e intervalos de confiança e correlação. Tópicos de probabilidade e estatística bayesiana serão abordados tendo em vista sua importância para a crescente área de machine learning. Neste tópico estudaremos também séries temporais devido a sua grande importância e recorrência na função de um cientista de dados.

MODULO III - MACHINE LEARNING

Técnicas de machine learning (aprendizado de máquina) vêm se tornando ferramentas essenciais ao cientista de dados cada vez mais, pois se mostram eficientes para o estudo dos mais diversos tipos de dados e problemas, permitindo muitas vezes uma aproximação muito mais simples que a disponível por métodos estatísticos convencionais. Além disso, elas facilitam o tratamento de grandes volumes de dados. Neste módulo utilizaremos a famosa biblioteca de machine learning em python, scikit-learn, para explorar algoritmos de aprendizado supervisionado e não supervisionado, passando por diferentes algoritmos de clusterização, classificação e regressão. Serão abordadas técnicas de otimização de resultados como: regularização, controle e ajuste de parâmetros, avaliação, seleção, e limpeza de dados.

MÓDULO IV - INTRODUÇÃO A DEEP LEARNING 

Embora as redes neurais artificiais tenham surgido em meados do século passado, é graças a atual capacidade de processamento dos dias de hoje que sua utilização é viável em ambientes muito dinâmicos. Com a evolução na capacidade de processamento, as redes neurais vem se tornando o padrão em ciência de dados, uma vez que produzem resultados impressionantes. Neste módulo exploraremos Keras, a biblioteca de machine learning de mais alto nível em python, estudaremos redes neurais de múltiplas camadas bem como diversas arquiteturas de redes neurais e suas aplicações. 

MÓDULO V - APLICAÇÕES AVANÇADAS E OUTRAS FERRAMENTAS

Neste módulo estudaremos algumas técnicas que podem ser muito úteis no tratamento de dados e análise estatística de diversos problemas. Estudaremos transformadas de Fourier, análise espectral, wavelet e simulações Monte Carlo. Além de técnicas complementares, neste momento viraremos nossa atenção a outras ferramentas úteis a um cientista de dados. Assim, apresentaremos a linguagem de programação R, o RStudio e algumas de suas bibliotecas importantes para a área. Há também novas ferramentas surgindo devido ao grande volume de dados gerados, e isso vem transformando a estrutura da ciência de dados e de muitas outras áreas. Para lidar com o "big data", algumas ferramentas se tornaram essenciais. Nesta etapa veremos um pouco sobre os serviços de nuvem e suas vantagens para a ciência de dados. Ainda neste contexto, faremos uma introdução à linguagem SQL e sua integração com Python, bem como a frameworks que rodam com Hadoop, como o Apache Spark e Apache Hive. E por fim trataremos sobre ética na ciência de dados.

MÓDULO VI PROJETO DE CONCLUSÃO DE CURSO

A habilidade central de um cientista de dados é extrair informações importantes dos dados, assim para concluir o curso o aluno deverá conduzir um projeto do começo ao fim, passando pelos processos de seleção de dados, filtragem, análises preliminares, escolha de modelos, processamento e análise de resultados. Este projeto deverá ser entregue no formato de uma apresentação orientada ao consumidor final.