如何将 AWS Glue 爬网程序与 Amazon Athena 结合使用

wufei123 2025-01-26 阅读:47 评论:0
作为数据专业人员,您需要处理来自各种来源的大量数据。这可能会给数据管理和分析带来挑战。幸运的是,两项 AWS 服务可以提供帮助:AWS Glue 和 Amazon Athena。 当您集成这些服务时,您就释放了 AWS 生态系统中的数据发...
作为数据专业人员,您需要处理来自各种来源的大量数据。这可能会给数据管理和分析带来挑战。幸运的是,两项 AWS 服务可以提供帮助:AWS Glue 和 Amazon Athena。

当您集成这些服务时,您就释放了 AWS 生态系统中的数据发现、编目和查询。让我们 了解他们如何简化您的数据分析工作流程。

图片.png

什么是 AWS Glue?

AWS Glue 是一种无服务器托管服务,可让您发现、准备、 移动和集成来自多个来源的数据。作为数据集成 服务,AWS Glue 让您能够集中管理数据 位置,而无需管理基础设施。

什么是 AWS Glue 爬网程序?

Glue爬虫是扫描数据的自动化数据发现工具 自动对其中的数据进行分类、分组和编目。 然后,它会在您的 AWS Glue 数据中创建新表或更新现有表 目录。

什么是 Glue 数据目录?

AWS Glue 数据目录是数据位置的索引, 架构和运行时指标。您需要此信息来创建和 监控您的提取、转换和加载 (ETL) 作业。 

为什么使用 Amazon Athena 和 AWS Glue?

现在我们已经介绍了Amazon Athena、AWS Glue 和 AWS 的基础知识 胶水爬虫,让我们更深入地讨论一下它们。

4 个主要 Amazon Athena 使用案例

Amazon Athena 提供了一种简化、灵活的分析方法 PB 级数据就在它们所在的地方。例如,Athena 可以分析 从 Amazon Simple Storage Service (S3) 获取数据或构建应用程序 数据湖和 30 个数据源,包括本地数据源或 使用 SQL 或 Python 的其他云系统。 

Amazon Athena 有四种主要用例:

  1. 在 S3、本地数据中心或其他云上运行查询

  2. 为机器学习模型准备数据

  3. 在 SQL 查询或 Python 中使用机器学习模型 简化复杂的任务,例如异常检测、客户群体 分析和销售预测

  4. 执行多云分析(例如在 Azure 中查询数据) Synapse Analytics,然后通过 Amazon 将结果可视化 QuickSight)

3 个关键 AWS Glue 使用案例

现在我们已经介绍了 Amazon Athena,接下来我们来谈谈 AWS Glue。您可以使用 AWS Glue 执行一些不同的操作。 

首先,您可以使用 AWS Glue 数据集成引擎,它允许您 从几个不同的来源获取数据。这包括亚马逊 S3、 Amazon DynamoDB 和 Amazon RDS 以及在 Amazon 上运行的数据库 EC2(与 AWS Glue 工作室集成)和 AWS Glue for Ray、Python 壳牌和阿帕奇火花。 

一旦数据被连接和过滤,它就可以与 加载或创建数据的位置,此列表扩展为包含来自以下位置的数据 Amazon Redshift、数据湖和数据仓库等地方。

您还可以使用 AWS Glue 运行 ETL 作业。这些工作可以让你 隔离客户数据,保护传输中和现场的客户数据 休息,仅在响应客户需要时访问客户数据 请求。当配置 ETL 作业时,您需要做的就是提供 虚拟专用中的输入数据源和输出数据目标 云。

使用 AWS Glue 的最后一种方法是通过数据目录 快速发现和搜索多个 AWS 数据集,而无需移动 数据。数据编目后,可立即用于搜索 并使用 Amazon Athena、Amazon EMR 和 Amazon Redshift 进行查询 频谱。

AWS Glue 入门:如何将数据从 AWS Glue 获取到 Amazon Athena

那么,如何将数据从 AWS Glue 获取到 Amazon Athena 中?请按照以下步骤操作:

  1. 首先将数据上传到数据源。最受欢迎的 选项是 S3 存储桶,但 DynamoDB 表和 Amazon RedShift 也是 选项。 

  2. 选择您的数据源并创建一个分类器,如果 必要的。分类器读取数据并生成模式(如果满足) 识别格式。您可以创建自定义分类器来查看 不同的数据类型。 

  3. 创建一个爬虫。 

  4. 设置爬网程序的名称,然后选择您的数据源 并添加任何自定义分类器以确保 AWS Glue 识别 数据正确。

  5. 设置身份和访问管理 (IAM) 角色以确保爬网程序可以正确运行流程。

  6. 创建将保存数据集的数据库。设置爬网程序的运行时间和频率,以使您的数据保持最新状态。

  7. 运行爬网程序。此过程可能需要一段时间,具体取决于 数据集有多大。爬虫成功运行后,您将 查看数据库中表的更改。

现在您已经完成了此过程,您可以跳转到 Amazon Athena 并运行您需要的查询来过滤数据并获取 您正在寻找的结果。

以上就是如何将 AWS Glue 爬网程序与 Amazon Athena 结合使用的详细内容,更多请关注知识资源分享宝库其它相关文章!

版权声明

本站内容来源于互联网搬运,
仅限用于小范围内传播学习,请在下载后24小时内删除,
如果有侵权内容、不妥之处,请第一时间联系我们删除。敬请谅解!
E-mail:dpw1001@163.com

分享:

扫一扫在手机阅读、分享本文

发表评论
热门文章
  • 闪耀暖暖靡城永恒怎么样-闪耀暖暖靡城永恒套装介绍(闪耀.暖暖.套装.介绍.....)

    闪耀暖暖靡城永恒怎么样-闪耀暖暖靡城永恒套装介绍(闪耀.暖暖.套装.介绍.....)
    闪耀暖暖钻石竞技场第十七赛季“华梦泡影”即将开启!全新闪耀性感套装【靡城永恒】震撼来袭!想知道如何获得这套精美套装吗?快来看看吧! 【靡城永恒】套装设计理念抢先看: 设计灵感源于夜色中的孤星,象征着淡然、漠视一切的灰色瞳眸。设计师希望通过这套服装,展现出在虚幻与真实交织的夜幕下,一种独特的魅力。 服装细节考究,从面料的光泽、鞋跟声响到裙摆的弧度,都力求完美还原设计初衷。 【靡城永恒】套装设计亮点: 闪耀的绸缎与金丝交织,轻盈的羽毛增添华贵感。 这套服装仿佛是从无尽的黑...
  • BioWare埃德蒙顿工作室面临关闭危机,龙腾世纪制作总监辞职引关注(龙腾.总监.辞职.危机.面临.....)

    BioWare埃德蒙顿工作室面临关闭危机,龙腾世纪制作总监辞职引关注(龙腾.总监.辞职.危机.面临.....)
    知名变性人制作总监corrine busche离职bioware,引发业界震荡!外媒“smash jt”独家报道称,《龙腾世纪:影幢守护者》制作总监corrine busche已离开bioware,此举不仅引发了关于个人职业发展方向的讨论,更因其可能预示着bioware埃德蒙顿工作室即将关闭而备受关注。本文将深入分析busche离职的原因及其对bioware及游戏行业的影响。 Busche的告别信:挑战与感激并存 据“Smash JT”获得的内部邮件显示,Busche离职原...
  • 奇迹暖暖诸星梦眠怎么样-奇迹暖暖诸星梦眠套装介绍(星梦.暖暖.奇迹.套装.介绍.....)

    奇迹暖暖诸星梦眠怎么样-奇迹暖暖诸星梦眠套装介绍(星梦.暖暖.奇迹.套装.介绍.....)
    奇迹暖暖全新活动“失序之圜”即将开启,参与活动即可获得精美套装——诸星梦眠!想知道这套套装的细节吗?一起来看看吧! 奇迹暖暖诸星梦眠套装详解 “失序之圜”活动主打套装——诸星梦眠,高清海报震撼公开!少女在无垠梦境中,接受星辰的邀请,馥郁芬芳,预示着命运之花即将绽放。 诸星梦眠套装包含:全新妆容“隽永之梦”、星光面饰“熠烁星光”、动态特姿连衣裙“诸星梦眠”、动态特姿发型“金色绮想”、精美特效皇冠“繁星加冕”,以及动态摆件“芳馨酣眠”、“沉云余音”、“流星低语”、“葳蕤诗篇”。...
  • 龙族卡塞尔之门昂热角色详解-龙族卡塞尔之门昂热全面介绍(之门.龙族.卡塞尔.详解.角色.....)

    龙族卡塞尔之门昂热角色详解-龙族卡塞尔之门昂热全面介绍(之门.龙族.卡塞尔.详解.角色.....)
    龙族卡塞尔之门:昂热角色深度解析 在策略手游《龙族卡塞尔之门》中,卡塞尔学院校长昂热凭借其传奇背景和强大技能,成为玩家们竞相选择的热门角色。作为初代狮心会的最后一人,他拥有超过130岁的阅历,沉稳成熟的外表下,藏着一颗爽朗豁达的心。游戏中,昂热不仅具备出色的单体输出,更擅长通过控制和辅助技能,为团队创造优势。 技能机制详解 昂热的技能组合灵活多变,包含普通攻击、言灵·时零以及随星级提升解锁的被动技能。虽然普通攻击仅针对单体目标,但言灵·时零却能对全体敌人造成物理伤害,并有几率...
  • 斗魔骑士哪个角色强势-斗魔骑士角色推荐与实力解析(骑士.角色.强势.解析.实力.....)

    斗魔骑士哪个角色强势-斗魔骑士角色推荐与实力解析(骑士.角色.强势.解析.实力.....)
    斗魔骑士角色选择及战斗策略指南 斗魔骑士游戏中,众多角色各具特色,选择适合自己的角色才能在战斗中占据优势。本文将为您详细解读如何选择强力角色,并提供团队协作及角色培养策略。 如何选择强力角色? 斗魔骑士的角色大致分为近战和远程两种类型。近战角色通常拥有高攻击力和防御力,适合冲锋陷阵;远程角色则擅长后方输出,并依靠灵活走位躲避攻击。 选择角色时,需根据个人游戏风格和喜好决定。喜欢正面硬刚的玩家可以选择战士型角色,其高生命值和防御力能承受更多伤害;偏好策略性玩法的玩家则可以选择法...