大数据处理和访问中的架构：大数据处理的六个阶段是什么？

发布时间：2022-12-03 16:01:58 所属栏目：大数据来源：转载

导读： 如果没有大数据处理，公司将限制他们访问可以磨练竞争优势并提供关键业务见解的数据。因此，对于所有公司而言，了解处理所有数据的必要性以及如何处理这些数据至关重要。

什么是大数据处理

如果没有大数据处理，公司将限制他们访问可以磨练竞争优势并提供关键业务见解的数据。因此，对于所有公司而言，了解处理所有数据的必要性以及如何处理这些数据至关重要。

什么是大数据处理？

当收集数据并将其转换为可用信息时，将进行数据处理。通常由数据科学家或数据科学家团队执行，正确完成数据处理以免对最终产品或数据输出产生负面影响非常重要。

大数据处理从原始格式的数据开始，然后将其转换为更具可读性的格式（图形，文档等），从而赋予其必要的格式和上下文，以供计算机解释并供整个组织的员工使用。

大数据处理的六个阶段

1.数据收集

收集数据是数据处理的第一步。数据是从可用资源中提取的，包括数据湖和数据仓库。重要的是，可用的数据源必须值得信赖且结构良好，以使收集的数据（后来用作信息）具有尽可能高的质量。

2.数据准备

收集数据后，便进入数据准备阶段。数据准备（通常称为“预处理”）是为后续数据处理阶段清理和组织原始数据的阶段。在准备过程中，会认真检查原始数据是否有任何错误。此步骤的目的是消除不良数据（冗余，不完整或不正确的数据），并开始创建高质量的数据以实现最佳的商业智能。

3.数据输入

然后，将干净的数据输入到目标位置（例如，像Salesforce这样的CRM或Redshift这样的数据仓库），然后将其转换成它可以理解的语言。数据输入是第一阶段，原始数据开始采用可用信息的形式。

4.加工

在此阶段中，实际上会处理前一阶段输入到计算机的数据以进行解释。处理过程是使用机器学习算法完成的，尽管过程本身可能会略有不同，具体取决于要处理的数据源（数据湖，社交网络，连接的设备等）及其预期用途（检查广告模式，通过连接的设备进行医疗诊断，确定客户需求等）。

5.数据输出/解释

输出/解释阶段是最终数据可用于非数据科学家的阶段。它是经过翻译的，可读的，并且通常以图形，视频，图像，纯文本等形式出现。公司或机构的成员现在可以开始为自己的数据分析项目自助服务数据。

6.数据存储

数据处理的最后阶段是存储。处理完所有数据后，将其存储以备将来使用。尽管某些信息可能会立即投入使用，但其中的大部分信息将在以后发挥作用。另外，正确存储数据对于遵守GDPR之类的数据保护法规也必不可少。正确存储数据后，组织成员可以在需要时快速轻松地访问数据。

大数据处理的未来

大数据处理的未来在于云。云技术建立在当前电子数据处理方法的便利性之上，并加快了速度和有效性。更快，质量更高的数据意味着每个组织可以利用更多数据，并且可以提取更有价值的见解。

随着大数据迁移到云，公司正在实现巨大的收益。大数据云技术使公司可以将所有平台组合到一个易于适应的系统中。随着软件的更改和更新（就像在大数据世界中经常发生的那样），云技术将新旧技术无缝集成。

云数据处理的好处绝不仅限于大型公司。实际上，小公司可以从自己的公司中获得重大利益。云平台可以很便宜，并且可以随着公司的发展灵活地增长和扩展功能。它使公司能够在没有高昂价格的情况下进行扩展。

从数据处理到分析

大数据正在改变我们所有人的业务方式。如今，保持敏捷和竞争力取决于制定清晰有效的数据处理策略。尽管数据处理的六个步骤不会改变，但云技术推动了技术的巨大进步，这些技术提供了迄今为止最先进，最具成本效益和最快的数据处理方法。

以下是贤集网小编收集的数据库开发人员Stephanie Shen的工作经验分享以及如何进行数据处理：

我的职业生涯始于1998年，当时我是一名Oracle数据库开发人员和管理员。在过去的20多年中，令人惊讶的是，IT如何通过关系OLTP（在线事务处理）技术发展为处理不断增长的数据量处理）数据库大数据技术架构，数据仓库，ETL（提取，转换和加载）和OLAP（在线分析处理）报告，大数据以及现在的AI，云和物联网。所有这些技术都是通过计算能力的快速增长而实现的，特别是在处理器，内存，存储和网络速度方面。本文的目的是首先概述有关如何处理大量数据的基本原理，其次，我希望可以帮助您对数据空间中的任何新兴技术有更深入的了解的思考过程。顺应当前和未来的技术浪潮，选择合适的架构。

在数据管道中，数据通常经历两个阶段：数据处理和数据访问。对于任何类型的数据，当它进入组织时（在大多数情况下有多个数据源），很可能是不干净的，或者是格式不正确的，或者最终内部或外部的业务用户可以直接报告或分析的格式组织。因此，首先需要进行数据处理，通常包括数据清理，标准化，转换和聚合。然后，最终数据将显示在数据访问层中-随时可以报告并用于所有方面的分析。数据处理有时也称为数据准备，数据集成或ETL。其中，ETL可能是最受欢迎的名称。

数据处理和数据访问具有不同的目标，因此已通过不同的技术实现。大数据的数据处理从一开始就强调“扩展”，这意味着每当数据量增加时，给定可用硬件，处理时间仍应在预期范围之内。整个数据处理时间范围从几分钟到几小时到几天不等，具体取决于数据量和处理逻辑的复杂性。另一方面，数据访问强调的是“快速”响应时间，以秒为单位。在较高的水平上，数据处理的可伸缩性主要是通过并行处理来实现的，而快速的数据访问则是基于访问模式以及服务器上可用内存的增加，通过优化数据结构来实现的。

大数据处理

为了清理，标准化和转换来自不同来源的数据，数据处理需要触摸即将到来的数据中的每条记录。清除记录并最终确定记录后，即可完成工作。这从根本上与数据访问不同-数据访问导致重复的检索和不同用户和/或应用程序对相同信息的访问。当数据量较小时，与数据访问相比，数据处理的速度面临的挑战较小，因此通常发生在最终数据所在的同一数据库内。随着数据量的增长，人们发现必须在数据库之外处理数据处理，以绕开数据库系统造成的所有开销和限制，而数据库系统显然不是最初设计用于大数据处理的。那时是ETL，然后Hadoop开始分别在数据仓库和大数据时代发挥关键作用。

大数据处理的挑战在于，要处理的数据量始终处于硬盘可以容纳的水平，但远远超过给定时间可用的计算内存量。高效数据处理的基本方法是将数据分解成较小的部分并并行处理。换句话说，可伸缩性是通过首先在编程中启用并行处理来实现的，这样，当数据量增加时，并行进程的数量将增加，而每个进程继续处理与以前相似的数据量；第二，随着并行进程数量的增加，添加更多具有更多处理器，内存和磁盘的服务器。

大数据的并行处理首先是通过数据库系统和ETL工具中的数据分区技术实现的。将数据集进行逻辑分区后，可以并行处理每个分区。 Hadoop HDFS（高度分布式文件系统）以最可扩展的方式适应了相同的原理。 HDFS的作用是将数据划分为具有恒定大小的每个数据块的数据块。然后将这些块分发到不同的服务器节点，并由元数据存储将其记录在所谓的“名称”节点中。当数据进程开始时，进程数由每个服务器节点上的数据块数和可用资源（例如，处理器和内存）确定。这意味着只要您有来自多个服务器的足够的处理器和内存，HDFS即可进行大规模并行处理。

目前，Spark已成为内存中进行大规模数据处理的最受欢迎的快速引擎之一。是否有意义？尽管内存确实变得便宜了，但它仍然比硬盘驱动器贵。在大数据空间中，要处理的大数据量始终远远大于可用的内存量。那么Spark如何解决呢？首先，Spark利用了具有多个数据节点的分布式环境中的内存总量。但是，如果有任何组织尝试将大数据放入Spark群集中，则内存量仍然不够，而且可能会非常昂贵。让我们考虑一下Spark适用于哪种类型的处理。数据处理总是从将数据从磁盘读取到内存开始，最后将结果写入磁盘。如果每个记录在写入磁盘之前只需要处理一次（典型的批处理就是这种情况），那么与Hadoop相比，Spark将不会产生优势。另一方面，Spark可以将数据保存在内存中以进行数据转换的多个步骤，而Hadoop无法。这意味着当多次重复处理同一条数据时，Spark具有优势，这正是分析和机器学习所需要的。现在考虑以下问题：由于可能同时运行数十个或数百个此类分析流程，如何以具有成本效益的方式扩展处理规模？显然，仅依靠内存中的处理是不能完全解决的，大数据的分布式存储（例如Hadoop）仍然是补充Spark计算的大数据解决方案中必不可少的部分。

数据处理领域的另一个热门话题是流处理。它在降低处理速度方面具有巨大优势，因为在给定的时间点，只要数据到达，它只需要处理少量数据即可。但是，它在两个方面不像批处理那样通用：第一是输入数据需要进入“流”模式，第二是仍然需要处理需要跨时间段聚合的某些处理逻辑之后分批。

最后，云解决方案提供了机会，可以根据数据量，从而根据并行进程的数量，以更动态的方式扩展分布式处理系统。在企业内部很难做到这一点，因为需要计划，预算和购买新服务器。如果不能很好地规划容量，则大数据处理可能会受到硬件数量的限制，或者额外购买会导致资源浪费而无法使用。云上的处理获得了基础架构弹性的巨大优势，它可以提供更多保证，以更具成本效益的方式实现最佳规模。

大数据处理和访问中的架构：大数据处理的六个阶段是什么？

数据处理技术的简要历史

资料存取

与数据处理相比，数据访问具有非常不同的特征，包括：

数据结构高度取决于应用程序或用户如何检索数据

数据检索模式需要很好地理解，因为一些数据可以被大量的用户或应用程序重复检索。

每次应检索的数据量应作为目标，因此应仅包含一部分可用数据。

鉴于上述原则，在过去的20年中，有几个里程碑反映了如何访问不断增长的数据量，同时仍能在几秒钟内返回请求的数据：

数据仓库：避免表联接，这在数据量很大时可能非常昂贵。这里出现“事实表”的概念，其中所有列都放在一起，而没有关系数据库中的数据库规范化原则。

列存储：每列都被存储和索引，因此分别访问。当一行有很多列，而查询一次只检索很少的列时，这比常规关系数据库的基于行的访问提供了更快的响应时间。

NoSQL数据库：消除了联接和关系结构，并针对更快速的数据检索量身定制。

内存数据库：通过将整个数据库或整个表保存在内存中来提供快速的性能。

下表列出了每种数据库类型的一些受欢迎的示例，但并非旨在提供完整列表。请注意，一个数据库可能结合了不止一种技术。例如，Redis以及内存中都是NoSQL数据库。此外，从数据仓库和列存储的数据检索利用并行流程在适用时检索数据。由于可以根据用户和/或应用程序的数据内容，数据结构和检索模式，选择不同类型的数据库，因此数据访问是组织需要快速且不断发展的领域。同时出于不同的目的同时具有不同类型的数据库或工具也应该很常见。

大数据处理和访问中的架构：大数据处理的六个阶段是什么？

总结

正如我们所看到的，数据处理和数据访问之间的一个很大的区别是，数据访问最终来自客户和业务的需求，选择正确的技术驱动未来的新产品开发和增强用户体验。另一方面，数据处理是一个公司的核心资产，大规模的处理和产生高质量的数据是公司与数据一起成长的关键因素。当数据量增长时，许多公司的数据处理系统都会受到跟踪，从头重建数据处理平台的成本很高。并行数据处理和可伸缩性的原则需要从一开始就仔细思考和设计。数据处理也与数据管理和数据集成密切相关——所有这3个都是任何数据密集型组织成功的必要条件。此外，每个组织现在都面临着来自开源社区和第三方供应商的大数据解决方案的许多选择。清晰地理解数据处理和数据访问之间的差异，可以使IT和业务领导不仅能够构建可靠的数据体系结构，而且能够做出正确的决策，以稳定的速度扩展和现代化数据体系结构。

（编辑：晋中站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

安徽合肥人工智能产业	为了不emo，我将自己培
AI芯片公司拿下超级石	Vitalik 协议设计中的