Sloth Big Data: Apache Spark no Python: PySpark com o Windows usando o Pycharm

Dando continuidade ao artigo: Ambiente para rodar o Spark com Scala na IDE do Eclipse (link: https://slothbigdata.blogspot.com/2019/07/ambiente-para-rodar-o-spark-com-scala.html), no qual preparamos o Eclipse para executar os processos do Spark no Windows utilizando a linguagem Scala.

Efetuaremos o mesmo processo nesse post, mas utilizando o Spark, programando em Python dentro da IDE do Pycharm. Assim será possível executar os seus próprios modelos, sem a necessidade de utilizar um cluster ou uma VM com a distribuição do Big Data.

1 – Instalação do Java

Primeiro passo é efetuar a instalação da JVM do Java para rodar os pacotes do Spark. No caso abaixo vamos aproveitar e instalar o pacote de desenvolvimento do Java (JDK).

Link: https://www.oracle.com/technetwork/pt/java/javase/downloads/jdk8-downloads-2133151.html

Efetuar a instalação do JDK e definir as variáveis de ambiente no Windows.

Criar a variável do JAVA_HOME no diretório no qual a aplicação foi instalada.

Editando a variável Path, insira o caminho do executável do Java.

%JAVA_HOME%\bin

Para teste executar o teste, efetue o comando no Prompt do Windows:

javac -version

2 – Instalação do Python

Para a instalação do Python vamos utilizar uma versão do Anconda, que já vem carregada de bibliotecas matemáticas.

https://www.anaconda.com/distribution/

Selecione a opção “Windows”, baixe o executável, efetue a instalação com os passos requeridos.

Após a instalação acesse as variáveis de ambiente e insira o caminho do Python na variável Path do mesmo modo que foi configurado o Java acima.

Comum o ambiente do Anaconda está configurado nesse caminho:

C:\Users\meuusuario\AppData\Local\Continuum\anaconda3

Para o teste acesso o Prompt e execute o comando:

python –version

3 – Preparando o ambiente do Hadoop no Windows:

Revendo o artigo: Ambiente para rodar o Spark com Scala na IDE do Eclipse (link: https://slothbigdata.blogspot.com/2019/07/ambiente-para-rodar-o-spark-com-scala.html), devem executar o processo de implantação do WinUtils no Windows. O arquivo pode ser baixado no link: https://github.com/slothbigdata/SlothBigDataSparkLicao.

Ao baixar o arquivo e descompacta-lo, novamente devemos definir a variável de ambiente HADOOP_HOME, para o caminho do diretório.

Insira a nova variável no Path:

%HADOOP%\bin

4 – Instalação das bibliotecas do Spark.

Efetuar o download do arquivo:

https://www.apache.org/dyn/closer.lua/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz

Descompactar o arquivo no diretório C:

Visão do diretório:

Entrar no command line do Windows.

Acessar o diretório: C:\spark-2.4.3-bin-hadoop2.7\bin

Digitar: pyspark

Após a instalação conseguiremos utilizar o Spark pelo Prompt de Comando do Windows.

5 – Utilizando o desenvolvimento no Pycharm.

Agora configuraremos o Spark para rodar no PyCharm, para isso temos que configurar mais variáveis de ambiente. Agora vamos inserir o SPARK_HOME, com o caminho do pacote do Spark que baixamos acima.

C:\spark-2.4.3-bin-hadoop2.7