跳转到主要内容

category

在不断发展的数据工程领域,Generative AI的集成不再是未来的概念,而是当今的现实。随着数据成为创新的生命线,数据的生成、处理和管理变得比以往任何时候都更加重要。
借助GPT(Generative Pre-trained Transformer)等大型语言模型(LLM)的进步,进入Generative AI的强大功能。这项技术不仅加强了现有的框架;它正在彻底改变整个数据生命周期。


数据工程生命周期再造


数据工程传统上涉及数据的移动和管理,包括几个阶段:生成、接收、存储、转换和服务。这是一个细致的过程,可以确保数据的准确性、可用性和可供分析的准备。
每个阶段都有其挑战和要求,LLM正成为提供智能解决方案的不可或缺的工具。

Source: https://www.oreilly.com/library/view/fundamentals-of-data/9781098108298/ch02.html

让我们探索每个阶段的协同作用,深入研究Generative AI如何成为这首数据交响曲中的大师。


1.生成:数据创造的艺术


数据工程生命周期的生成阶段是从交易数据库、物联网设备和web服务等各种来源收集原始数据的基础阶段。随着数据工程师与这些平台的合作,他们在保护数据方面的作用至关重要,这些数据将为从摄入到分析的整个生命周期提供燃料。
随着实际数据集的稀缺和数据隐私问题的增加,Generative AI已成为创建合成数据集的有力工具。
金融机构越来越多地采用这项技术,特别是生成对抗性网络(GANs),以产生密切模仿真实数据的金融交易。GANs采用双重网络架构:一个制造新数据的生成器和一个评估其真实性的鉴别器。通过迭代对抗过程,他们生成合成数据,在不损害客户隐私的情况下,保留真实金融行为的统计细微差别。
这种创新超越了金融领域。
Generative AI纠正数据失衡,确保电子商务平台上的公平情绪分析。它还为软件开发提供了现实的测试数据集,并丰富了自然语言处理(NLP)任务的训练数据。此外,它还为组织复杂的非结构化数据提供了模式生成,从而有助于后勤优化。
本质上,Generative AI通过在各个领域创建多功能、逼真的数据集,同时优先考虑数据安全和隐私,正在彻底改变数据生成。


2.摄入:数据同化的艺术


在数据工程过程中,摄取阶段至关重要,它从不同的来源收集数据以进行下游处理。由于数据源和数据流的变化,这一阶段可能会带来重大挑战。根据需求、数据量以及组织实时或近时间处理数据的能力,在批量或流式摄取之间进行仔细选择至关重要。
银行在将手写贷款申请转换为数字记录时面临的挑战之一是光学字符识别(OCR)技术在处理难以辨认的笔迹方面的局限性。为了缓解这种情况,Generative AI和LLM发挥了作用,利用文本清晰部分的上下文来推断和填充不清晰的部分。这些模型利用大量的训练数据,擅长推断和重建文本,确保数字文档准确反映原始手写材料。
这项技术还可用于丰富房地产清单、规范健康记录数据以实现一致性、转录口头客户服务互动以进行分析,以及将图像转换为文本以简化物流操作。
因此,生成型人工智能和LLM是提高数据准确性和实用性的重要工具,将复杂的摄入挑战转化为创新和效率的机会。

3.存储:数字资产的金库


在数据工程中,高效存储至关重要,要在数据可用性和操作效率之间取得平衡。这一阶段取决于几个因素:确保与读/写需求的兼容性,防止瓶颈,决定存储的主要角色(无论是用于长期归档还是快速访问),并考虑可扩展性、元数据捕获、治理协议和架构灵活性,以适应频繁访问的“热”数据和不太活跃的“冷”数据。
随着数据创建量呈指数级增长,优化存储效率至关重要。以视频流媒体服务为例,它可以利用Generative AI缩小视频数据的大小。LLM学会简洁地对视频进行编码,在保持质量和减少存储占用之间取得微妙的平衡。这项人工智能技术可以识别消耗性数据,只保留存储所需的数据,并按需动态重建其余数据,以实现令人印象深刻的压缩率,而不会降低用户体验。
除了视频压缩,其他革命性的存储管理用例还包括--通过智能重复数据消除改进云存储,采用预测性分层以节省成本,为新业务生成合成数据集,以及恢复旧文档。
通过这些创新,Generative AI在转变存储方法、提供成本效益和增强功能方面发挥着关键作用,这对复杂的数据操作至关重要。


4.转型:为未来塑造数据


在数据工程中,转型阶段至关重要,它可以提炼数据,以释放其在指导业务见解方面的潜力。这个阶段涉及各种操作:类型转换、格式标准化、模式演变、数据规范化,以及将业务逻辑复杂地编织到数据模型中,使数据库与业务的功能现实相一致。
GPT-3等LLM在这一领域表现出色,利用其广泛的培训来处理精确标准化日期格式等任务。它们使用模式识别来生成脚本或正则表达式,将不同的数据转换为统一的格式,从而简化了为分析和机器学习应用程序清理数据的路径。
除了格式化之外,LLM还有助于将复杂的组织结构转换为逻辑数据库设计,简化业务规则的定义,自动化数据清理,并建议包含外部数据以获得更完整的分析视图。
LLM在数据工程中发挥着变革性的作用,不仅通过提高数据质量和一致性,还通过加快数据准备过程,为稳健、以数据为中心的业务决策铺平道路。

5.服务:精准传递数据


在数据工程中,服务阶段是通过三种主要途径将劳动成果交付给利益相关者的阶段:分析,通过报告和仪表板获得见解;机器学习,为预测和决策提供动力;和反向ETL,将转换后的数据循环回业务系统。
数据生命周期的高潮是将处理后的数据提供给最终用户或应用程序。在这里,交互式仪表板代表了可用性的顶峰,LLM正在通过自然语言处理(NLP)彻底改变用户与数据分析的交互。当集成到交互式仪表板中时,LLM充当复杂数据库和用户之间的智能中介。
用户可以用会话语言键入或说出查询;LLM然后解析查询,使用其对大量文本数据的广泛训练来理解用户的意图和请求的细微差别。随后,该模型将此意图转换为底层数据库系统可以执行的结构化查询。它检索所需的精确数据,然后以可理解的格式显示。这一无缝流程显著增强了用户体验,允许在不需要技术查询语言知识的情况下进行直观的数据探索和决策。
其他用例包括通过汇总复杂的数据集简化自动化报告,通过智能映射促进反向ETL,通过自动生成的数据报告确保法规遵从性,以及将BI复杂性转化为可理解的叙述,以供执行决策。
LLM在服务阶段起着关键作用,确保复杂的数据转换过程以直接、战略性的业务用户价值提取为高潮,促进整个组织的明智决策。


结论:新数据时代的曙光


代人工智能,尤其是通过LLM的使用,正在迎来数据工程的复兴。它将挑战转化为机遇,将复杂性转化为简单性,将原始数据转化为富有洞察力的叙述。随着Generative AI增强数据生命周期的每个阶段,创新的潜力是无限的。
当我们站在数据工程新时代的风口浪尖上时,问题不再是是否采用Generative AI,而是要多快。
组织必须转向将这些技术纳入其数据战略。
利用LLM的潜力,在迈向更智能、更高效和数据驱动的未来的竞赛中保持领先。
你准备好打开钥匙并释放你的数据的全部潜力了吗?现在是时候了。

文章链接