为什么 Spark 是未来的大数据平台源代码-七爪网

Apache Hadoop 长期以来一直是大数据应用程序的基础，被认为是所有大数据相关产品的基础数据平台。然而，内存数据库和计算由于更快的性能和快速的结果而越来越受欢迎。 Apache Spark 是一个新的框架，它利用内存中的功能来提供快速处理（比 Hadoop 快近 100 倍）。因此，Spark 产品越来越多地用于大数据世界，主要是为了加快处理速度。

什么是 Apache Spark？
Apache Spark 是一个开源框架，用于快速、简单地处理大量数据（大数据）。它适用于基于大数据的分析应用。 Spark 可以与 Hadoop 环境一起使用，可以独立使用，也可以在云中使用。它由加利福尼亚大学开发，后来提供给 Apache 软件基金会。因此，它属于开源社区，可以非常划算，这进一步让业余开发者可以轻松工作。（要了解有关 Hadoop 开源的更多信息，请参阅 What Is the Influence of Open Source on the Apache Hadoop Ecosystem?）

Spark 的主要目的是为开发人员提供一个围绕中心数据结构工作的应用程序框架。 Spark也非常强大，具有在短时间内快速处理海量数据的先天能力，从而提供了非常好的性能。这使得它比据说最接近的竞争对手 Hadoop 快得多。

为什么 Spark 比 Hadoop 如此重要
众所周知，Apache Spark 在多项功能上优于 Hadoop，这可能解释了为什么它仍然如此重要。这样做的主要原因之一是考虑其处理速度。事实上，如上所述，对于相同数量的数据，Spark 提供的处理速度比 Hadoop 的 MapReduce 快大约 100 倍。与 Hadoop 相比，它还使用更少的资源，从而使其具有成本效益。

Spark 具有优势的另一个关键方面是与资源管理器的兼容性。众所周知，Apache Spark 与 Hadoop 一起运行，就像 MapReduce 一样，但是，后者目前仅与 Hadoop 兼容。但是，对于 Apache Spark，它可以与 YARN 或 Mesos 等其他资源管理器一起使用。数据科学家经常将此作为 Spark 真正超越 Hadoop 的最大领域之一。

在易用性方面，Spark 再次恰好比 Hadoop 好很多。 Spark 除了具有 Spark SQL 之类的语言外，还具有多种语言的 API，例如 Scala、Java 和 Python。编写用户自定义函数相对简单。它还恰好拥有用于运行命令的交互模式。另一方面，Hadoop 是用 Java 编写的，并且赢得了编程难度很大的名声，尽管它确实有辅助该过程的工具。（要了解有关 Spark 的更多信息，请参阅 Apache Spark 如何帮助快速应用程序开发。）

Spark 的独特功能是什么？
Apache Spark 具有一些独特的功能，这些功能真正将其与数据处理业务中的许多竞争对手区分开来。下面简要概述了其中一些。

内存技术
Apache Spark 的独特之处之一是其独特的“内存中”技术，使其成为一个非常优秀的数据处理系统。在这种技术中，Spark 将所有数据加载到系统的内存中，然后再将其卸载到磁盘上。这样，用户可以将一部分处理后的数据保存在内存中，而将剩余的留在磁盘上。

Spark 还具有在其机器学习算法的帮助下将必要信息加载到其核心的先天能力。这使得它非常快。

星火的核心
Spark 的核心管理几个重要功能，如设置任务和交互以及生成输入/输出操作。可以说是RDD，即弹性分布式数据集。基本上，这恰好是分布在通过网络连接的多台机器上的数据混合。此数据的转换是通过四步法创建的，包括映射数据、排序数据、缩减数据，最后加入数据。

此步骤之后是 RDD 的发布，这是在 API 的支持下完成的。这个 API 是三种语言的结合：Scala、Java 和 Python。

Spark 的 SQL
Apache Spark 的 SQL 有一个相对较新的数据管理解决方案，称为 SchemaRDD。这允许将数据排列成多个层次，也可以通过特定的语言查询数据。

图形服务
Apache Spark 具有处理图形甚至本质上是图形的信息的能力，从而能够以很高的精度进行简单的分析。

串流
这是 Spark 的主要部分，它允许它在核心的帮助下流式传输大量数据。它通过将大数据分解成更小的数据包然后对其进行转换来实现，从而加速 RDD 的创建。

MLib——机器学习库
Apache Spark 有 MLib，这是一个用于结构化机器学习的框架。它的实施速度也明显快于 Hadoop。 MLib 还能够解决几个问题，例如统计读取、数据采样和前提测试等。

为什么 Spark 不能替代 Hadoop
尽管事实上 Spark 在几个方面明显优于 Hadoop，但仍然有几个原因导致它目前还不能真正取代 Hadoop。

首先，与 Spark 相比，Hadoop 只是提供了更多的工具。它还有一些在业界公认的做法。不过，Apache Spark 在该领域仍然相对年轻，需要一些时间才能与 Hadoop 相提并论。

Hadoop 的 MapReduce 在运行成熟的操作方面也设立了某些行业标准。另一方面，人们仍然认为 Spark 还没有完全准备好以完全可靠的方式运行。通常，使用 Spark 的组织需要对其进行微调，以使其为满足他们的一系列要求做好准备。

Hadoop 的 MapReduce 比 Spark 存在时间更长，也更易于配置。不过，考虑到 Spark 提供了一个尚未真正测试粗糙补丁的全新平台，情况并非如此。

公司对 Spark 和 Hadoop 的看法
许多公司已经开始使用 Spark 来满足他们的数据处理需求，但故事并没有就此结束。它肯定有几个强大的方面，使它成为一个了不起的数据处理平台。但是，它也有很多需要修复的缺点。

业界认为 Apache Spark 将继续存在，甚至可能成为数据处理需求的未来。然而，它仍然需要进行大量的开发工作和打磨，才能真正发挥其潜力。

实际实施
Apache Spark 已经并且仍然被众多公司所采用，以满足其数据处理要求。最成功的实施之一是由 Shopify 执行的，它希望选择符合条件的商店进行业务合作。然而，当它想要了解其客户销售的产品时，其数据仓库总是超时。在 Spark 的帮助下，该公司能够处理数百万条数据记录，然后在几分钟内处理 6700 万条记录。它还确定了哪些商店符合条件。

利用 Spark，Pinterest 能够识别发展趋势，然后使用它来了解用户的行为。这进一步允许在 Pinterest 社区中获得更好的价值。全球最大的旅游信息网站之一 TripAdvisor 也使用 Spark 来加快向游客推荐的速度。

结论
即使在目前，也不能怀疑 Apache Spark 的实力，以及它带来的独特功能集。它的处理能力和速度，以及它的兼容性为未来的几件事情定下了基调。然而，如果要真正发挥其全部潜力，它也有几个需要改进的地方。虽然目前 Hadoop 仍然占据统治地位，但 Apache Spark 确实有着光明的未来，被许多人认为是满足数据处理需求的未来平台。

相关文章

微信