网页标题: Apache Spark™ 3.0：用于分析和机器学习 | NVIDIA

网页链接: https://www.nvidia.cn/deep-learning-ai/solutions/data-science/apache-spark-3/

# 适用于 Apache Spark 的 RAPIDS 加速器

适用于 Apache Spark 的 RAPIDS 加速器是一个插件，其利用 RAPIDS 库和 GPU 加速 Apache Spark 上的数据处理和机器学习工作流。无需更改任何代码即可转换现有工作流。

## 探索加速优势

### 更快的执行时间

加速提升数据准备任务的性能，更快地训练 AI 模型并实现实时分析。

### 降低基础设施成本

用更少的资源取得更多的成果：与 CPU 相比，基于 NVIDIA GPU 的 Spark 能以更少的硬件更快地完成作业，从而节省部署时间，降低本地部署成本或云端运营成本。

### 快速实现价值

无需代码更改即可快速体验优势。随附的工具可识别最适合 GPU 加速的作业并计算最佳配置。

### 用例

## RAPIDS 加速器的应用场景

各类企业都使用 Apache Spark 进行业务流程分析、将数据加载至数据仓库，以及机器学习工作流开始时的数据预处理。

### 数据处理可扩展性

日益增长的数据量给 IT 资源带来压力。GPU 加速增强计算基础设施，可以处理更多数据。Taboola 通过加速其运营，能够在现有数据中心规模内按期处理不断增长的数据量。

[阅读博客](https://developer.nvidia.cn/zh-cn/blog/gpu-integration-propels-data-center-efficiency-and-cost-savings-for-taboola/)

### AI 工作流

AI 工作流包含多个步骤，包括数据准备、转换、特征工程和数据提取。借助 GPU 加速这些操作可缩短训练时间，显著降低基础设施成本。T&T 将其 AI 工作流的成本和时间都减少了 70%

[阅读他们的案例](https://resources.nvidia.com/en-us-spark/att-apache-spark-suc-1)

### 实时分析

企业依靠最新数据做出关键运营决策。GPU 加速让他们能更快地处理最新信息并获得洞察。使用 GPU，凯捷集团帮助一家国际零售商将交易处理时间从数天缩短到数小时。

[阅读博客](https://developer.nvidia.com/zh-cn/blog/gpus-for-etl-run-faster-less-costly-workloads-with-nvidia-rapids-accelerator-for-apache-spark-and-databricks/)

协助大规模迁移

## Project Aether

使用 AI 优化配置实现最佳性能，自动对 Spark 作业进行评估、测试和配置。

大规模迁移时间可从数周或数月缩短到数小时或数天，加快价值实现并节约大量成本。填写意向表申请这项免费服务。

[获取访问权限](#get-access)

## TCO 分析工具

## 您的速度有多快？

评估您自己的 Apache Spark 工作负载的 GPU 加速潜力，并了解如何配置集群以大幅节省成本。

[了解详情](https://www.nvidia.cn/lp/deep-learning-ai/solutions/data-science/spark-accelerator/)

> Cloudera 和 NVIDIA 的集成将使我们能够使用数据驱动的见解为任务关键型用例提供支持。我们目前正在实施这一集成，并且已经实现了 10 倍以上的速度提升，而我们的数据工程和数据科学工作流程的成本仅为一半。

— IRS 应用分析和统计研究技术部门主管 Joe Ansaldi

> 与在 CPU 上运行 Spark 相比，我们发现 NVIDIA 加速的 Spark 3 的性能显著提升。随着这些颠覆性的 GPU 性能提升，我们在全套 Adobe Experience Cloud 应用中增强 AI 驱动功能的可能性也随之出现。

– Adobe 机器学习部门高级总监 William Yan

> 我们持续与 NVIDIA 合作，通过针对 Apache Spark 3 和 Databricks 的 RAPIDS 优化来提高性能，使 Adobe 等我们的联合客户受益。这些贡献带来了更快的数据 pipelines、模型训练和评分，这直接转化为我们的数据工程师和数据科学家社区的更多突破和见解。

– Apache Spark 的最初创建者兼 Databricks 首席技术专家 Matei Zaharia

上一步

下一页

1. 评价 1
2. 评价 2
3. 评价 3

### 启动选项

## 开始使用适用于 Apache Spark 的 RAPIDS 加速器

了解如何将 GPU 加速的数据分析从开发转向生产。

### 开发

开始使用 RAPIDS 开放源代码库加速数据科学工作流。探索最新技术资源，开始使用适用于 Apache Spark 的 RAPIDS 加速器。

[开始使用](https://docs.nvidia.com/spark-rapids/user-guide/latest/index.html)

### 部署

借助 NVIDIA AI Enterprise 加速数据科学，这是一个端到端、安全的云原生 AI 软件平台。NVIDIA AI Enterprise 提供安全性、可管理性和 API 稳定性，以降低开放源代码软件的潜在风险。

[申请 90 天免费许可](https://enterpriseproductregistration.nvidia.com/?LicType=EVAL&ProductFamily=NVAIEnterprise)

## 获取免费电子书了解更多

下载电子书《加速 Apache Spark 3.x—利用 NVIDIA GPU 助力分析和 AI 新时代》，挖掘 AI 驱动的大数据价值并了解 Apache Spark 的下一步发展。

[立即下载](https://www.nvidia.cn/deep-learning-ai/solutions/data-science/apache-spark-3/ebook-sign-up/)