Pós-Graduação em Ciência dos Dados

Confira todas as informações sobre o seu curso de interesse.

  • Designed by Freepik

  • Designed by Freepik

TURMAS DISPONÍVEIS

Período Datas Investimento
Sábado
08:00 às 17:00
Início: 04/08/2018
Programação: Sábado
De: R$ 500,00 de matrícula + 15x de R$ 650,00 por:
R$ 400,00 de matrícula + 15x de R$ 580,00

INFORMAÇÕES ADICIONAIS

Há uma revolução em curso no mundo com a chegada da chamada era digital, a qual já produziu – e que produzirá ainda mais – profundas mudanças na sociedade humana: máquinas e algoritmos inteligentes colocados à disposição do ser humano, facilitando a sua vida cotidiana ou a sua vida empresarial. Uma parte dessa revolução está associada ao que se chama genericamente de inteligência artificial, a qual engloba os métodos de machine learning e de statistical learning, ferramentas da Ciência dos Dados. Como um dos pilares dessa nova era, a Ciência dos Dados cresce em ritmo vigoroso – em todo o mundo – devido a uma crescente demanda por profissionais qualificados, capazes de transformar dados em conhecimento. Dessa forma, o curso de pós-graduação em Ciência dos Dados se propõe a capacitar o profissional nele interessado no uso e aplicação dos principais métodos e ferramentas de análise de dados hoje existentes, qualificando-o para este promissor mercado de trabalho.
 

Objetivos do Curso

  • Propiciar a familiarização inicial no uso do software R, através de práticas em laboratório de informática e aplicações em situações do mundo real.
  • Introduzir os fundamentos da probabilidade e da estatística e apresentar o potencial de suas aplicações a fenômenos e problemas atuais.
  • Oferecer uma abordagem inicial sobre os métodos de inferência estatística e da estatística Bayesiana e suas ricas aplicações.
  • Fortalecer os conceitos anteriores através do uso de simulações, dentro de uma vasta área de aplicações genericamente chamadas de estatística computacional e simulações Monte Carlo.
  • Fornecer subsídios teóricos e práticos relacionados às estratégias e métodos de machine learning e statistical learning, com destaque para os métodos de análise de problemas não-supervisionados (clusterização) e supervisionados (classificação e regressão).
  • Prover uma introdução aos métodos de análise de séries temporais e de predição, através de pacotes especializados do R.
  • Demonstrar o uso de pacotes e funções especializadas do R em aplicações avançadas.
  • Realizar uma introdução às relevantes ferramentas da Ciência dos Dados, o SQL e o Python, complementares ao versátil R.
  • Familiarizar o aluno com os temas de big data e data mining, motivando-os à construção de soluções concretas de aplicação no seu dia a dia.
  • Contribuir com o despertar de um comportamento inovador e construtivo em ciências dos dados.
  • Apoiar na produção de uma monografia de conclusão de curso, em área de interesse prático do aluno.
  • Fornecer subsídios teóricos relativamente à metodologia científica e didática de ensino superior

 

Coordenação

Prof. Antonio Gomes de Mattos Neto
Engenheiro pela Escola Politécnica da USP. Mestre pela UFRJ. Doutor pela Rice University, EUA. MBA em Gestão Empresarial pela Fundação Dom Cabral. Professor de ensino superior, tendo lecionado no IME (Instituto Militar de Engenharia – RJ), PUC/RJ e UFBA. Atualmente atuando nas instituições de ensino superior ALPHA CHANNEL e FMU.

Prof. Erik Santos
Formado em Administração pelas Faculdades integradas Rio Branco com MBA em Business Intelligence pela FIAP com mais de 17 anos de vivencia em TI onde acumula mais de 20.000 horas em projetos de BI com foco melhorar o processo de tomada de decisão com base em dados, atuando nas áreas de Educação, Varejo, Suply-Chain, finanças, vendas, Customer Services e Social Media em empresas multinacionais e nacionais de grande porte. Atualmente dá consultoria e treinamentos, além de ministrar aulas em cursos de Pós-Graduação e Extensão com foco na área de Business Intelligence.


Profissionais das mais diversas áreas que enfrentam crescente necessidade de uso de ferramentas computacionais para a exploração e análise de dados relativos aos seus processos ou aos mercados onde atuam. São exemplos analistas de marketing, economistas, atuários, engenheiros, administradores, profissionais da saúde, advogados, comerciários, compradores, operadores logísticos, analistas diversos, estatísticos, matemáticos, geólogos, biólogos, etc.

Este não é um curso apenas para aqueles que desejam um contato direto com softwares especializados e uso intensivo de técnicas computacionais e de programação aplicados à análise de dados, pois por vezes isso pode ser feito de uma maneira superficial, mecanizada, sem um melhor entendimento dos “comos” e dos “porquês”, ou seja, do entendimento do que está por trás das “ferramentas”. Sendo assim, procuraremos dar ênfase à formulação correta do problema, a seleção da estratégia de abordagem, a seleção dos modelos e o entendimento do modo de funcionamento dos algoritmos. 

Dessa forma, dividiremos as aulas entre aulas conceituais e aulas práticas. As aulas conceituais serão realizadas em sala de aula convencional, onde o professor introduzirá o tema a ser discutido, apresentará os principais conceitos e fundamentos, e ilustrará tudo isso através de exemplos, explorando simultaneamente a vivência dos alunos em situações similares. Nas aulas práticas, que serão realizadas em laboratório de informática, em estações individuais para cada aluno, tudo que foi aprendido será reproduzido pelo próprio aluno, através dos softwares especializados disponibilizados para este curso. Veja suas descrições na seção de softwares abordados no curso.


Matriz Curricular

Disciplinas Carga Horária
Introdução ao R e Aplicações em Ciência dos Dados 40
Inferência Estatística e Estatística Bayesiana 40
Machine Learning I – Clusterização 40
Machine Learning II – Classificação 40
Machine Learning III – Regressão 40
Séries Temporais e Predição 40
Aplicações Avançadas do R 40
Introdução a SQL e Python 40
Metodologia Científica e Didática no Ensino Superior (EAD) 40
Carga Horária Total 360

 

PROGRAMA DO CURSO
 

INTRODUÇÃO AO R E APLICAÇÕES EM CIÊNCIA DOS DADOS

Será feita uma introdução ao mundo da ciência dos dados. Que ciência é esta, como funciona, por que cresce tão rapidamente, que relações tem com suas irmãs, outras ciências sem a qual ela – a ciência dos dados – não seria nem tão bela nem tão forte. Falaremos sobre como se divide, suas principais estratégias e os tipos de problemas que aborda. Dada essa visão introdutória, passaremos à instalação do R e do RStudio, ambiente de trabalho (workspace), pacotes, funções help, importação e exportação de dados, estruturas de dados. Apresentaremos os tipos de dados e tipos de variáveis, algo da maior importância para tudo mais que o cientista de dados fará. Sem entender isso, o cientista de dados não conseguirá ter a clareza suficiente para desenvolver boas soluções. Passaremos ao sistema básico de gráficos do R, parâmetros gráficos, manipulação de dados, funções básicas e avançadas, e algumas funções estatísticas. Ao longo desse caminho introdutório, daremos exemplos de aplicações do R à ciência dos dados. Esse será um excelente empurrão inicial, que deverá deixar você muito motivado!

 
INFERÊNCIA ESTATÍSTICA E ESTATÍSTICA BAYESIANA

Uma das ciências irmãs, sem a qual a ciência dos dados não seria nem tão bela nem tão forte, é a estatística. Aqui vamos abordar, de forma rápida, um conjunto mínimo necessário de conceitos e fundamentos da estatística para podermos avançar com o estudo dos métodos da ciência dos dados. Veremos distribuições de probabilidade, estimação pontual, estimação intervalar, o famoso Teorema do Limite Central, testes de hipótese para uma e duas amostras, assim como tabelas de contingência. Nesse ponto desviaremos nosso olhar para uma ramificação da estatística que tem fervorosos adeptos, assim como aplicações muito interessantes, a estatística bayesiana, também chamada de inferência bayesiana. Discutiremos o Teorema de Bayes, distribuições anterior e posterior, escolha da distribuição anterior, algumas propriedades da inferência bayesiana, demostrando a riqueza dessa abordagem através de exemplos. Para aqueles que desejarem ir mais à frente em estatística, temos um curso de estatística aplicada, que poderá servir a este propósito. Ou, quem sabe, você vai querer ingressar nos excelentes departamentos de matemática e estatística das universidades públicas de São Paulo ou de outros estados? Lá estão os melhores estatisticos do país!


MACHINE LEARNING – AGRUPAMENTO (CLUSTERIZAÇÃO)

Machine learning é um nome que está na moda. Dentre seus vários métodos de aprendizado, encontram-se os de agrupamento (clusterização), estudados com muito empenho, tanto pela estatística, pela ciência da computação, como também pela ciência dos dados. É um método muito útil, que pode levar a descobertas surpreendentes. Veremos representação, visualização e sumários de dados na análise multivariada. Dados retangulares e outros tipos de dados. Discutiremos análise de componente principal (PCA) e funções do R aplicáveis à PCA. Veremos a distribuição multivariada normal, os conceitos de dissimilaridade e distância, para entrar então no cerne da questão, que são os métodos – ou algoritmos, se você preferir – de clusterização, entre eles o método das k-médias e de clusterização hierarquizada. Se der tempo, poderemos ver clusterização baseada em modelos ou, quem sabe, análise fatorial. Se não, podemos ao menos passar uma visão geral de como funcionam, ok?

 
MACHINE LEARNING - CLASSIFICAÇÃO

Voltaremos a falar do que são problemas supervisionados e não-supervisionados. Isto para deixar bem claro a diferença entre agrupamento – que está dentro da classe de problemas não-supervisionados – e classificação – que está dentro da classe de problemas supervisionados. Nós, seres humanos, fazemos muito tanto agrupamento como classificação, sempre nessa ordem. Deixando este ponto o mais claro possível, avançaremos para apresentar o famoso perceptron (aqui com um propósito didático), análise discriminante linear (método histórico nascido na estatística), k nearest neighbor (KNN), modelo logístico, árvores de decisão para classificação, florestas randômicas e support vector machines (SVM). Como são muitos, não será possível cobrir todos em detalhe, então daremos destaques a alguns e, para os demais, discutiremos como funcionam. Finalizaremos com uma discussão de como analisar a performance de algoritmos de classificação. Classificação é, sem sombra de dúvidas, um dos campos mais encantadores da ciência dos dados!


MACHINE LEARNING - REGRESSÃO

Finalmente, voltaremos nossas atenções para outro tipo de problema supervisionado, o de regressão. Regressão é um termo histórico nascido no seio da estatística e empregado no mundo inteiro, por qualquer uma das três ciências irmãs: estatística, ciência da computação ou ciência dos dados. A primeira questão aqui é deixar claro a diferença entre classificação e regressão. Esse é o ponto mais importante. Entendido isto, discutiremos os algoritmos, dos mais simples aos mais complexos, começando com regressão linear simples, sua forma de funcionamento, como ele aprende e como ajustar o modelo (sua hipótese) usando dados de treino e de teste. Passaremos ao modelo linear multivariável, transformação de variáveis e uso de variáveis mudas, chamadas de fatores no R, dummy variables em inglês. Isto dá enorme versatilidade aos modelos lineares. Discutiremos o importante dilema do trade-off entre tendência e variabilidade. Passaremos então a outros métodos de regressão, dentre eles árvore de decisão de regressão, florestas randômicas para regressão e regressão com SVM. Se Francis Galton visse tudo isso, ficaria surpreso de ver quão longe foi a sua regressão!


SÉRIES TEMPORAIS E PREDIÇÃO

A estatística é uma ciência nova. Dentro dela, mais nova ainda, a análise de séries temporais. E mais nova ainda é a ciência dos dados, uma ciência irmã da estatística. Sendo assim, o cientista dos dados, quando se refere a séries temporais, surfa as ondas das séries temporais com as pranchas e quilhas construídas pelos estatísticos. Por que são tão relevantes séries temporais? A resposta é: Como muito frequentemente observamos fenômenos naturais ou sociais coletando dados dentro de certos intervalos de tempo, elas – as séries temporais – estão muito presentes em quase todas áreas de conhecimento ou atividade humana. Introduziremos séries temporais fornecendo vários exemplos e mostrando quão ricas e diversas são. Discutiremos sobre o processo de predição, que é quando queremos usar dos dados já coletados para prever algo no futuro. Para isso normalmente usam-se das etapas: Definição do problema, coleta de dados, análise dos dados, seleção e ajuste do modelo, validação do modelo, predição, monitoração da qualidade da predição. Definiremos propriedades e funções relevantes para a análise de séries temporais, e técnicas de ajuste de tendência e de sazonalidade. A partir desse ponto discutiremos a modelagem de séries temporais, passando pelos modelos mais comuns, que ajustados e validados contra os dados disponíveis, são usados para descrever o comportamento do fenômeno estudado ou para fazer previsões sobre o futuro. Quanto à performance do modelo, apresentaremos técnicas de monitoração das predições do modelo, que servem para indicar sobre a qualidade de suas previsões ou a necessidade de refinamentos e melhoramentos. Finalizaremos com uma visão geral, de caráter informativo, sobre outros modelos mais sofisticados, abrindo assim, ao nosso aluno, um horizonte de possibilidades relativas a séries temporais. O mercado valoriza muito o estudo de séries temporais, sempre com a otimista esperança de melhor prever, para melhor planejar e melhor desempenhar. Mas previsão não é fácil!


APLICAÇÔES AVANÇADAS DO R

Aqui abordaremos, de uma maneira mais livre, alguns dos pacotes e aplicações avançadas do R e da ciência dos dados. Poderemos discutir sobre técnicas de monitoramento de redes sociais, ou voltar nossa atenção à uma introdução ao processamento da linguagem natural, ou falar de mapas estatísticos, ou aprimorar nossa discussão sobre análise bayesiana, ou desenvolver exemplos de simulações Monte Carlo. São cerca de 6500 pacotes oficiais do R, todos disponíveis para o cientista dos dados. Muitos de aplicação extremamente especializadas, outros de uso geral, mas que vão além da estrutura básica da linguagem R. Veremos aqui o famoso pacote gráfico “ggplot2” e o pacote multifuncional “tydiverse”, ambos do proficiente e conceituado cientista de dados Hadley Wickham. Daremos alguma atenção ao que são Big Data e Data Mining. Há muita conversa sobre esses assuntos, e milhares de ferramentas e formas diferentes de atacar esses temas. Para isso, valerá a pena desmitificar e separar o joio do trigo, propiciando a você uma visão mais clara do que são essas coisas.


INTRODUÇÃO A SQL E PYTHON

Tudo que discutimos até então pode ser aprendido e praticado com um conjunto pequeno de dados, ou seja, uma amostra pequena da população de seu interesse. Essa é a forma correta de introduzir os principais conceitos, fundamentos, estratégias e jeito de funcionar dos diversos modelos, funções e algoritmos. Raros serão os cientistas de dados que precisarão, sozinhos, resolver e atacar problemas de dimensões gigantescas, pois nessa hora monta-se um time misto, com especialistas em prototipagem (que é normalmente o próprio cientista de dados), em implementação de algoritmos em linguagens de alta performance (ou mesmo em linguagens de alto nível, porém otimizadas), e em banco de dados, gerenciamento de dados e, quem sabe, em processamento paralelo. Mas há um passo intermediário importante, pela sua relevância no mercado, que é ensinar sobre o SQL. E também um outro passo, que é o de apresentar outra linguagem que, por conta de algumas características, ganhou crédito como uma segunda linguagem de programação em Ciência dos Dados, o Python. Ambos, SQL e Python, serão introduzidos aqui. Não falaremos sobre Julia, Math Lab, Octave ou outros. A vida e as oportunidades futuras dirão que caminho você trilhará e que seleções fará. Não há solução única, nem caminho único. Preocupe-se então, neste momento, em fortalecer as bases do seu conhecimento.  


METODOLOGIA CIENTÍFICA E DIDÁTICA NO ENSINO SUPERIOR

Foi através do método científico que a humanidade mudou tudo que existe no mundo nos últimos 200 anos. Um rápido exame, só dos últimos 30 anos, já nos deixará estupefatos, pois não tínhamos sequer smartphones há 30 anos, e a internet apenas engatinhava. E hoje, sem eles, não sabemos mais viver! Por isso entender sobre a metodologia científica, que propiciou tudo isso, é tão relevante. Ela é parte central do processo de inovação. Veremos então vários tópicos centrais ao estudo da metodologia científica, incluindo o planejamento e a redação de trabalhos científicos. Mas, além disso, com o propósito de capacitar você – nosso pós-graduando – à docência no ensino superior, discutiremos também técnicas ligadas ao tema didática no ensino superior, tais como relação professor-aluno, recursos de ensino, técnicas de avaliação, e assim por diante. Didática no ensino superior vem de uma diretriz do MEC. Você, então, além de ser um profissional do mercado de trabalho, poderá também, se mostrar pendor, transformar-se num professor, para isso já tendo aprendido algumas coisas sobre este assunto aqui conosco. Essa disciplina será oferecida na modalidade EAD.