Sloth Big Data: agosto 2019

quinta-feira, 29 de agosto de 2019

Apache Spark no Python: PySpark com o Windows usando o Pycharm

Dando continuidade ao artigo: Ambiente para rodar o Spark com Scala na IDE do Eclipse (link: https://slothbigdata.blogspot.com/2019/07/ambiente-para-rodar-o-spark-com-scala.html), no qual preparamos o Eclipse para executar os processos do Spark no Windows utilizando a linguagem Scala.

Efetuaremos o mesmo processo nesse post, mas utilizando o Spark, programando em Python dentro da IDE do Pycharm. Assim será possível executar os seus próprios modelos, sem a necessidade de utilizar um cluster ou uma VM com a distribuição do Big Data.

1 – Instalação do Java

Primeiro passo é efetuar a instalação da JVM do Java para rodar os pacotes do Spark. No caso abaixo vamos aproveitar e instalar o pacote de desenvolvimento do Java (JDK).

Link: https://www.oracle.com/technetwork/pt/java/javase/downloads/jdk8-downloads-2133151.html

Efetuar a instalação do JDK e definir as variáveis de ambiente no Windows.

Criar a variável do JAVA_HOME no diretório no qual a aplicação foi instalada.

Editando a variável Path, insira o caminho do executável do Java.

%JAVA_HOME%\bin

Para teste executar o teste, efetue o comando no Prompt do Windows:

javac -version

2 – Instalação do Python

Para a instalação do Python vamos utilizar uma versão do Anconda, que já vem carregada de bibliotecas matemáticas.

https://www.anaconda.com/distribution/

Selecione a opção “Windows”, baixe o executável, efetue a instalação com os passos requeridos.

Após a instalação acesse as variáveis de ambiente e insira o caminho do Python na variável Path do mesmo modo que foi configurado o Java acima.

Comum o ambiente do Anaconda está configurado nesse caminho:

C:\Users\meuusuario\AppData\Local\Continuum\anaconda3

Para o teste acesso o Prompt e execute o comando:

python –version

3 – Preparando o ambiente do Hadoop no Windows:

Revendo o artigo: Ambiente para rodar o Spark com Scala na IDE do Eclipse (link: https://slothbigdata.blogspot.com/2019/07/ambiente-para-rodar-o-spark-com-scala.html), devem executar o processo de implantação do WinUtils no Windows. O arquivo pode ser baixado no link: https://github.com/slothbigdata/SlothBigDataSparkLicao.

Ao baixar o arquivo e descompacta-lo, novamente devemos definir a variável de ambiente HADOOP_HOME, para o caminho do diretório.

Insira a nova variável no Path:

%HADOOP%\bin

4 – Instalação das bibliotecas do Spark.

Efetuar o download do arquivo:

https://www.apache.org/dyn/closer.lua/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz

Descompactar o arquivo no diretório C:

Visão do diretório:

Entrar no command line do Windows.

Acessar o diretório: C:\spark-2.4.3-bin-hadoop2.7\bin

Digitar: pyspark

Após a instalação conseguiremos utilizar o Spark pelo Prompt de Comando do Windows.

5 – Utilizando o desenvolvimento no Pycharm.

Agora configuraremos o Spark para rodar no PyCharm, para isso temos que configurar mais variáveis de ambiente. Agora vamos inserir o SPARK_HOME, com o caminho do pacote do Spark que baixamos acima.

C:\spark-2.4.3-bin-hadoop2.7

Incluir no Path: %SPARK_HOME%\bin

Para teste, execute o pyspark no prompt em qualquer local.

Abaixe a IDE do PyCharm no site: https://www.jetbrains.com/pycharm/

Após a instalação do Pycharm crie um novo projeto. Clicando na versão do Python, vamos selecionar Interpret Settings -> Project Structure

Clique em Add Content Root:

Adicione o diretório do Python:

C:\spark-2.4.3-bin-hadoop2.7\python

Adicione o py4j-0.9-src.zip no diretório:

C:\spark-2.4.3-bin-hadoop2.7\python\lib\ py4j-0.10.7-src.zip

Após essas configurações, reinicie o PyCharm e o Spark esta pronto para rodar na IDE.

Fontes:

http://deelesh.github.io/pyspark-windows.html

https://datatofish.com/add-python-to-windows-path/

https://kaizen.itversity.com/setup-spark-development-environment-pycharm-and-python/

Em caso de dúvidas ou sugestões, escreva nos comentários ou nos mande um email: slothbigdata@gmail.com.

quinta-feira, 8 de agosto de 2019

Arquitetura de dados em Big Data

Conforme experiências em projetos atuais, tenho encontrado muitos analistas que tem dificuldade em efetuar consultas nas bases de dados na estrutura do Big Data. A maioria das ingestões são feitas no Data Lake diariamente com apena um “Delta” das informações, que seriam atualizações ocorridas dos registros durante o período de um dia.

Nos projetos o Data Lake se tornar uma referência as fontes de origem, devido a documentação do dado ser compátivel ao sistema que originou a informação e a sua vizibilidade se torna maior devido ao conhecimento dos colaboradores dessa estrutura transacional, deste modo, o Data Lake acaba sendo fonte para diversas consultas no modo dimensional.

Esse processo ao consultar o Datalake onera drasticamente o cluster, pois cada consulta aos dados brutos, a engine percorre toda a tabela ocorrendo o “full-scan”. Devemos lembrar que diferentemente de uma estrutura de um banco de dados relacional, o Hive por ser um sumarizador de dados, ele não tem os mesmos recursos de indexadores que um banco relacional, mas leva vantagem na paralelização dos processos.

Para esclarecer melhor esse cenário, vamos supor que um cientista de dados necessita montar um modelo no qual ele precisa consultar a cidade na tabela de clientes.

No caso de uma consulta pelo Data Lake, o processo deverá percorrer todas as partições e trazer o registro mais recente, no caso acima está mencionado um exemplo de dados com 6 partições, se utilizarmos a persistência de dados de 3 anos, são 1095 partições.

Caso em consultas no Data Lake o join mais performático é feito da seguinte maneira:

Seguindo os conceitos "top down" definido por Bill Inmon, de amenizar esse processamento de toda tabela, seria a construção de um Data Mart no qual a tabela seria atualizada diariamente.

Fonte: https://www.computerweekly.com/tip/Inmon-or-Kimball-Which-approach-is-suitable-for-your-data-warehouse acesso em 07/08/2019

Diariamente seria executado um script no qual consultaria a nova partição criada no Data Lake e atualizaria seu Data Mart. Essa tabela geralmente não é particionada e sua performance referente a consulta, será bem menos onerosa ao cluster.

O modelo de query para executar o processo diário:

--INSERIR EM UMA TABELA A VISAO DO DIA ANTERIOR

INSERT INTO TABLE TABELA_UNIAO

SELECT ID, NOME, CIDADE, DATA_INGESTAO FROM DATAMART.CLIENTE;

--INSERIR O DIA DA NOVA PARTICAO DO DATALAKE

INSERT INTO TABLE TABELA_UNIAO

SELECT ID, NOME, CIDADE, DATA_INGESTAO

FROM DATAMART.CLIENTE

WHERE DATA_INGESTAO = "2019-01-06";

--CARREGAR O DATA MART COM OS DADOS MAIS RECENTES

INSERT OVERWRITE TABLE DATAMART.CLIENTE

SELECT

SUB_CLIENTE.ID,

SUB_CLIENTE.NOME,

SUB_CLIENTE.CIDADE,

SUB_CLIENTE.DATA_INGESTAO

FROM(

ID,

NOME,

CIDADE,

DATA_INGESTAO,

RANK() OVER (PARTITION BY ID ORDER BY DATA_INGESTAO DESC) RANKING

FROM DATALAKE.CLIENTE

) SUB_CLIENTE

WHERE SUB_CLIENTE.RANKING = 1;

Algumas orientações podem ser aplicadas:

Em Big Data a replicação dos dados é permitida se caso for utilizado para o aumento de performance na consulta, mas deve ser avalidado com ponderação.
Na instrução sql aplicada acima, utilizamos o RANK(), pois apresenta melhor performance na execução, mas caso possui uma duplicação de chaves (ID e DATA_INGESTAO), apresentará a quantidade de registros com o mesmo ranque (No caso acima multiplos registros com SUB_CLIENTE.RANKING = 1), para solucionar esse caso é possível utilizar a função ROW_NUMBER(). Fonte: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics
Outra forma segura de carregar o Data Mart e diminuir a indisponibilidade é utilizar o processo Exchange Partition. Fonte: https://cwiki.apache.org/confluence/display/Hive/Exchange+Partition

O assunto de estrutura de dados é algo importante e deve ser discutida, pois em alguns casos o processo começa apresentar falhas após meses de operação sistema, no qual, já está finalizado o período de garantia oferecido pelo fornecedor.

Em caso de dúvidas ou sugestões, escreva nos comentários ou nos mande um email: slothbigdata@gmail.com.