- Este evento já passou.
Data Scientist Training Cloudera da Semantix
16 / junho / 2020-09:00 - 19 / junho / 2020-17:00
R$4.495Este workshop de quatro dias abrange fluxos de trabalho de data science e machine learning em escala usando Apache Spark 2 e outros componentes importantes do ecossistema Hadoop. O workshop enfatiza o uso de métodos de ciência dos dados e machine learning abordando os desafios de negócios do mundo real.
Usando cenários e conjuntos de dados de uma empresa de tecnologia fictícia, os estudantes descobrem insights para o embasamento de decisões críticas de negócios e desenvolver produtos de dados para transformá-lo. O material é apresentado através de uma sequência de breves palestras, demonstrações interativas, exercícios práticos e debates. As demonstrações e exercícios do Apache Spark são conduzidos em Python (com PySpark) e R (com sparklyr) usando o ambiente Cloudera Data Science Workbench (CDSW).
O QUE ESPERAR?
O workshop inclui breves palestras, demonstrações interativas, exercícios práticos e debates, abrangendo temas como:
- Visão geral da ciência dos dados e do machine learning em escala.
- Visão geral do ecossistema Hadoop.
- Trabalhando com dados HDFS e tabelas Hive, utilizando Hue.
- Introdução ao Cloudera Data Science Workbench.
- Visão geral do Apache Spark 2
- Leitura e inserção de dados.
- Gestão de qualidade de dados.
- Higienização e transformação de dados.
- Sumarização e agrupamento de dados.
- Combinação, divisão e remodelagem de dados.
- Exploração de dados.
- Configuração, monitoramento e solução de problemas de aplicações Spark
- Visão geral de machine learning em Spark MLlib.
- Extração, transformação e seleção de recursos.
- Construção e avaliação de modelos de regressão.
- Construção e avaliação de modelos de clusterização.
- Criar e avaliar modelos de agrupamento
- Modelos de validação cruzada e ajuste de hiperparâmetros
- Construção de pipelines de machine learning.
- Implementação de modelos de machine learning.
O QUE VOU APRENDER?
Os participantes adquirem habilidades práticas e experiência prática com ferramentas de ciência da dados, incluindo:
Spark, Spark SQL e Spark MLlib
PySpark e sparklyr
Cloudera Data Science Workbench (CDSW)
Hue
QUAL É A CARGA HORÁRIA DO CURSO?
4 dias de 8 horas cada, totalizando 32 horas de treinamento
Treinamento sujeito a confirmação.
O CURSO SERÁ MINISTRADO EM PORTUGUÊS?
Sim, o curso será ministrado em português por um instrutor certificado e autorizado pela Cloudera.
PARA QUEM ESSE CURSO É INDICADO?
O workshop é direcionado para cientistas de dados que atualmente usam Python ou R para trabalhar com conjuntos de dados menores em uma única máquina e para aqueles que precisam ampliar suas análises e modelos de machine learning para grandes conjuntos de dados em clusters distribuídos. Engenheiros de dados e desenvolvedores com conhecimento em ciência e machine learning podem se interessar por este treinamento.
Para participar deste evento, o profissional necessita de um conhecimento básico de Python ou R e alguma experiência explorando e analisando dados e desenvolvendo modelos estatísticos ou de aprendizagem em máquina. Conhecimento em Hadoop ou Spark não é requerido.
COMO POSSO EFETUAR O PAGAMENTO?
Pagamento parcelado sem juros no cartão de crédito;
Para empresas, aceitamos transferência bancária ou boleto com emissão de nota fiscal eletrônica;
Descontos especiais para grupos.
O aluno deverá estar ciente que ao realizar a compra/inscrição de nossos cursos presenciais pelo site, que o a realização do curso está sujeito a quorum por se tratar de serviços prestados para um grupo mínimo de participantes. A confirmação da realização será feita 15 dias antes da data estabelecida.
ESSE CURSO É MESMO DA CLOUDERA?
O curso é oferecido pela Semantix no Brasil, que é Cloudera Training Partner. Nossos instrutores são profissionais certificados Cloudera, que passaram na prova e foram avaliados pelos responsáveis pelos cursos da Cloudera antes de serem aprovados para poderem realizar este curso.