如何在 Apache Debian 10 上安裝 Spark


本教程將向您展示如何在 Apache Debian 10 上安裝 Spark。對於那些不知道的人,Apache Spark 是一個快速且流行的集群計算系統。 它為 Java、Scala 和 Python 提供高級 API,以及支持整個執行圖的優化引擎。它還支持一套豐富的高級工具,例如用於 SQL 和結構化信息處理的 Spark SQL、用於機器學習的 MLlib、用於圖形處理的 GraphX 和 Spark Streaming。

本文假設您至少具有 Linux 的基本知識,知道如何使用 shell,最重要的是,將您的網站託管在您的 VPS 上。安裝非常簡單,假設您在 root 帳戶下運行。如果沒有,您需要添加一個’。sudo‘向命令獲取root權限。 介紹在 Debian 10 (Buster) 上逐步安裝 Apache Spark。

在 Apache Debian 10 Buster 上安裝 Spark

步驟1。在運行下面的教程之前,運行以下命令以確保您的系統是最新的很重要。 apt 終端命令:

sudo apt update

步驟 2. 安裝 Java。

運行 Apache Spark 需要 Java。 確保 Java 已安裝在您的 Debian 系統上:

sudo apt install default-jdk

使用以下命令檢查 Java 版本:

java -version

步驟 3. 安裝 Scala。

然後在你的 Debian 系統上安裝 Scala 包。

sudo apt install scala

檢查您的 Scala 版本:

scala -version

步驟 4. 在 Apache Debian 上安裝 Spark。

您現在可以下載 Apache Spark 二進製文件。

wget https://www.apache.org/dyn/closer.lua/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

接下來,提取 Spark tarball。

tar xvf spark-3.1.1-bin-hadoop2.7.tgz
sudo mv spark-3.1.1-bin-hadoop2.7/ /opt/spark

完成後,設置 Spark 環境。

nano ~/.bashrc

將以下行添加到文件末尾:

 SPARK_HOME=/opt/spark
 PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

保存您的更改並關閉編輯。要應用更改,請運行以下命令:

source ~/.bashrc

然後使用以下命令啟動 Apache Spark:其中之一是集群的主節點。

start-master.sh

要顯示如下所示的 Spark Web 用戶界面,請打開 Web 瀏覽器並在端口 8080 上輸入本地主機 IP 地址。

https://127.0.0.1:8080/

此單服務器獨立設置可引導從屬服務器和主服務器。這個 start-slave.sh 該命令用於啟動 Spark 工作進程。

start-slave.sh spark://ubuntu1:7077

現在工人正在運行,當我重新加載 SparkMaster WebUI 時,我看到如下內容:

在 Apache Debian 10 上安裝 Spark

配置完成後,啟動主從服務器,測試Spark shell是否工作。

spark-shell

恭喜! Spark 已成功安裝。感謝您使用本教程在您的 Apache Debian 系統上安裝最新版本的 Spark。我們鼓勵您查看更多幫助和有用信息。 官方 Apache Spark 網站..



Source link