我们提供资讯科技人员扩充服务!

高级数据工程师简历

0/5 (提交你的评分)

芝加哥,

SUMMARY

  • 8年以上IT技术设计经验, 利用大数据技术开发和维护企业分析解决方案.
  • 在零售、金融和医疗保健领域拥有丰富的数据和业务经验.
  • 专注于大数据生态圈, 数据采集, Ingestion, Modeling, 存储分析, 集成, 数据处理, 和数据库管理.
  • 数据科学爱好者,解决问题能力强, Debugging, 分析能力, 谁积极参与理解和交付业务需求.
  • 精通Oracle数据库设计和管理.
  • 熟练使用数据库工具,如MongoVue, Mongo compass和Toad.
  • 精通选择和评估从摄取构建数据管道所需的正确技术, 管理和消费在云和内部环境中的批处理和流用例.
  • 以结果为导向的专业人士,具有创建数据映射文档的经验, 编写功能规范和查询, 将数据从1NF归一化为3NF/4NF. 需求收集、系统 & 数据分析, 需求分析, 数据架构, 数据库设计, 数据库建模, 发展, OLTP和OLAP数据库的实现和维护.
  • 丰富的设计经验, creating, testing, 并维护完整的数据管理从数据摄取, 数据管理和数据提供,深入了解Spark API,如Spark Framework-SQL, DSL, Streaming, 通过处理不同的文件格式,比如镶木地板, JSON, 并从各个方面对spark应用程序进行性能调优.
  • 有使用Spark- core使用Apache Spark生态系统的经验, SQL, 数据帧, 关于Spark MLLib的RDD和知识.
  • 具有Informatica MDM设计、开发、测试和审查经验 & 优化Informatica MDM (Siperian).
  • 有丰富的NoSQL数据库及与Hadoop集群HBase集成的工作经验, Cassandra, MongoDB, DynamoDB, 和Cosmos DB
  • 有MVC、微服务架构和Docker容器的经验.
  • 具有Java编程经验,并对oop有很好的理解, I/O, 集合, 异常处理, Lambda表达式, 注释
  • 为逻辑/物理数据库设计提供完整的生命周期支持, 模式管理和部署.
  • 擅长数据库部署阶段,严格的配置管理和与不同团队的控制协调.
  • 有使用R和Python编写代码以操作数据以进行数据加载的经验, extracts, 统计分析, modeling, 数据转换.
  • 熟悉最新的软件开发实践,如敏捷软件开发, Scrum, 测试驱动.
  • 使用Apache气流和Oozie工作流引擎来管理和调度Hadoop作业,建立工作流的实际经验.
  • 开发(TDD)和持续集成(CI).
  • 利用Kubernetes和Docker为CI/CD系统构建运行时环境, test, and deploy.
  • 在Kubernetes工作,为私有云和公共云提供平台即服务.
  • 通过将日志存储从Cassandra转换到Azure SQL数据仓库,提高了查询性能
  • 有使用多个微服务创建和运行docker映像的经验.
  • 有构建和架构多个数据管道的经验, 负责GCP中数据摄取和转换的端到端ETL和ELT流程,并协调团队之间的任务.
  • 有在GCP中使用stackdriver服务/ dataproc集群访问日志进行调试的经验.
  • 在使用分布式计算架构(如AWS产品)方面有丰富的实践经验.g. EC2, Redshift, EMR, 和弹性搜索), Hadoop, Python, 熟练使用Spark和Azure SQL数据库, MapReduce, Hive, SQL和PySpark解决大数据类型问题.
  • 开发定制的ETL解决方案, 批处理, 以及实时数据摄取管道,使用PySpark和Shell脚本将数据移入和移出Hadoop集群.
  • 在开发高度可扩展和弹性Restful api方面有丰富的知识, ETL解决方案, 和第三方平台集成作为企业站点平台的一部分.
  • 有使用ELK (Elasticsearch)实现管道的经验, logstash, kibana)和使用Apache Kafka开发流过程.
  • 在微软Azure机器学习工作室有丰富的数据导入经验, export, 数据准备.
  • 精通统计方法,包括假设检验, ANOVA, 时间序列, 主成分分析.
  • 熟悉主数据管理(MDM)和数据质量(IDQ).
  • 日常处理职业公司内部和外部客户数据管理服务.
  • 良好的理解数据建模(维度和关系)概念,如星型模式建模, 雪花模式建模, 事实表和维度表.
  • 在编写SQL和PL/SQL脚本以验证数据库系统和后端数据库测试方面具有丰富的经验.
  • 有使用Universes进行数据检索的经验, 个人资料档案, 存储过程, 和自由操作SQL.
  • 擅长快速构思和构建解决方案,最近使用子酒馆架构开发了一个数据湖.
  • 使用Python和Kafka开发了一个管道,将数据从服务器加载到Hive,并对数据湖的RAW层进行自动摄取和质量审计.
  • 安装Cloudera (CDH4)和Hortonworks (HDP1).3-2.1) EC2上的Hadoop集群,Ubuntu 12.04、CentOS 6.5在10-100个节点的平台上.
  • 架构完整的可扩展数据管道,数据仓库,用于优化数据摄取.
  • 在几个项目中与数据科学家和架构师合作,根据需求创建数据集市.
  • 进行复杂的数据分析并报告结果.
  • 构建数据分级层和快速实时系统,为BI应用程序和机器学习算法提供支持.

技术技能

Hadoop组件/大数据: HDFS, Hue, MapReduce, Pig, Hive, HCatalog, Hbase, Sqoop, Impala, Zookeeper, Flume, Kafka, Yarn, Cloudera经理, Kerberos, pyspark气流, 卡夫卡雪花, Apache气流

Languages: Scala, Python, SQL, Python, Hive QL

IDE Tools: Eclipse, IntelliJ, Pycharm.

云平台: AWS(λ, DynamoDB, S3, EC2, EMR, RDS), 微软Azure (Azure砖, ADF, Azure数据浏览器, Azure HDInsight, ADLS), GCP

Databases: Oracle, SQL Server, MySQL, MS Access, NoSQL数据库(Hbase, Cassandra, MongoDB)

大数据技术: Hadoop, HDFS, Hive, Pig, Oozie, Sqoop, Spark, 机器学习, Pandas, NumPy, Seaborn, Impala, Zookeeper, Flume, Airflow, Informatica, Snowflake, DataBricks, Kafka, Cloudera

数据分析库: Pandas, NumPy, SciPy, Scikit-learn, NLTK, Plotly, Matplotlib

集装箱化: 码头工人,Kubernetes

CI / CD工具: Jenkins, Bamboo, GitLab

软件的方法: 敏捷、Scrum、瀑布

开发工具: Eclipse, PyCharm, IntelliJ, SSMS, Microsoft Office Suite

编程语言: Python(熊猫, Scipy, NumPy, Scikit-Learn, 统计模型, Matplotlib, Plotly, Seaborn, Keras, TensorFlow, PyTorch), PySpark, T-SQL/SQL, PL/SQL, HiveQL, Scala, UNIX Shell脚本

Databases: MS-SQL, Oracle和DB2

NoSQL数据库: Cassandra, PostgreSQL, Mongo DB和Azure Cosmos DB

报告工具/ETL工具: Power BI, Tableau, DataStage, Pentaho, Informatica, Cognos, Talend, Azure数据工厂, Azure砖, Arcadia, Data stage, Talend, SSIS, SSRS, SSAS, ER Studio.

版本控制工具: GitHub和Azure DevOps, SVN, Bitbucket

专业经验

机密,芝加哥,伊利诺伊州

高级数据工程师

职责:

  • 安装、配置和维护数据管道
  • 将业务问题转化为大数据解决方案,制定大数据战略和路线图.
  • 根据项目范围和SDLC方法设计业务需求收集方法.
  • 参与数据映射规范,创建并执行详细的系统测试计划. 数据映射指定将从数据仓库提取哪些数据.
  • 使用Azure云平台(HDInsight)设计和部署数据管道, DataLake, Databricks, Blob存储, 数据工厂, Synapse, SQL, SQL DB, DWH, 和数据存储浏览器).
  • 维护整个流量的数据管道(Kafka).
  • 监控与设计性能相关的活动,并提出解决方案.
  • 设计、计划和执行与库DW的MDM集成.
  • 集成Apache Kafka数据摄取.
  • 使用kafka的API成功生成kafka的消费者组滞后-用于在集群之间构建实时数据管道.
  • 从Hadoop中提取文件,并每天每小时放入S3中.
  • 为行/列操作的自定义UDF编写Python (PySpark)脚本, merges, 聚合, stacking, 数据标签和所有清洁和符合要求的工作.
  • 将整个oracle数据库迁移到BigQuery,并使用不同的气流操作符在GCP的气流中为ETL相关的工作构建数据管道.
  • 编写Pig脚本生成MapReduce作业,并对HDFS中的数据执行ETL过程.
  • 开发利用ETL工具的解决方案,并使用Informatica和Python识别流程改进的机会.
  • 与ETL一起创建外部批处理以执行映射, Mapplets使用Informatica工作流设计器集成来自不同来源(如Oracle)的Shire数据, DB2, 平面文件和SQL数据库,并加载到Informatica MDM Hub的登陆表中.
  • Designed, Installed, 已配置Informatica/Siperian MDM Hub核心组件,如Informatica MDM Hub Console, Hub Store, Hub Server, 清理匹配服务器, 净化适配器, 数据建模.
  • 监控数据库性能. 负责AWR, ADDM, ASH报告的性能调优.
  • 从Apache Kafka轻松迁移到Confluent Kafka,没有数据丢失和零停机时间.
  • 安装金门监控器,监控GG过程和参数文件. 同时安装了WEBLOGIC服务器端和客户端,以满足GG director的安装要求.
  • 开发了用于监视数据库和调度作业的UNIX shell脚本. 通过检查CPU、I/O和分页,监控服务器级性能. 撰写系统级报告.
  • 开发shell脚本来检查侦听器, 数据库运行时间, 获取自动表空间和运行状况报告, 自动化AWR报告,用于数据库监控.
  • 在GCP上运行的Hadoop集群中使用spark和Scala代码开发和部署结果.
  • 开发多云策略,更好地使用GCP(用于其PAAS)和Azure(用于其SAAS).
  • 有使用Snowflake开发端到端ETL管道的经验, Alteryx, 关系型和非关系型数据库(SQL和NoSQL)的Apache NiFi.
  • Wrote, compiled, 并根据需要在Scala中使用Apache Spark执行程序来执行ETL作业
  • 使用AWS Kinesis(数据流)的实时集成功能对流数据进行分析.
  • 有代码部署经验, 使用Kubernetes等工具进行编排和调度, 码头工人群,
  • 通过广泛的SQL脚本设计和实现具有各种数据源的多个ETL解决方案, ETL tools, Python, Shell脚本和调度工具. 使用python、Unix和Sql进行XML、Web提要和文件处理的数据分析和数据整理.
  • 监控和记录,如ELK Stack(欢笑连接,弹性搜索,Kibana).
  • 精通诸如Grafana之类的报告工具, Kibana(麋鹿), 设置图表,以便更直观地显示测试结果.
  • 是否参与了GCP中Apache气流服务的建立.
  • 使用Talend集成套件创建ETL映射,从数据源中提取数据, 应用转换, 并将数据加载到目标数据库.
  • 使用python将来自不同来源的数据加载到数据仓库,以便为商业智能执行一些数据聚合.
  • 使用Sqoop从HDFS和RDBMS的不同来源传输数据.
  • 使用Pyspark和Spark- sql开发Spark应用程序进行数据提取, 从多种文件格式进行转换和聚合.
  • 使用SSIS构建自动化多维数据集.
  • 使用Spark Streaming从Kafka接收实时数据,并使用Python和HBase、Cassandra等NoSQL数据库将流数据存储到HDFS.
  • 使用Spark Streaming近乎实时地从AWS S3桶中收集数据,并动态执行必要的转换和聚合,构建通用学习者数据模型,并将数据持久化到HDFS中.
  • 使用SQL Server管理工具对数据库中的数据进行比对.
  • 使用SQL查询验证大型机和Teradata上DB2表中的测试数据.
  • 识别和记录功能性/非功能性和其他相关的业务决策.
  • 使用express service在NodeJS中开发Rest API. 转换现有api,并将新api实现到客户端的中间件堆栈中.
  • 广泛从事REST API和微服务的实现和部署工作.
  • 创建了TypeScript可重用组件和服务,以使用基于组件的架构来使用REST API.
  • 使用UNIX shell脚本和Teradata实用程序(如MLOAD)自动化和计划的重复报告流程, BTEQ和快速加载.
  • 实施优化反洗黑钱系统,以监察可疑交易及加强合规性.
  • 使用星型和雪花型模式进行维度和关系数据建模, OLTP和OLAP系统, Conceptual, 逻辑和物理数据建模.
  • 使用Oozie自动化数据处理,自动将数据加载到Hadoop分布式文件系统.
  • 开发自动化回归脚本,用于验证多个数据库之间的ETL过程,如AWS Redshift, Oracle, MongoDB, T-SQL, 和SQL Server使用Python.

环境: Cloudera经理 (CDH5), Hadoop, Pyspark, HDFS, NiFi, Pig, Hive, S3, Kafka, Scrum, Gits, Sqoop, Oozie, Spark, Pyspark, Azure, Informatica, ELK, MDM, Tableau, GCP, OLTP, OLAP, Hub, HBase, Cassandra, Apache气流, SQL Server, Python, Shell脚本, XML, Unix.

机密,达拉斯,德克萨斯州

高级数据工程师

职责:

  • 与业务团队一起收集需求,并帮助他们处理测试用例.
  • 在跨地域零售数据通用架构的设计和开发中发挥了重要作用.
  • 设计和开发5种不同的销售流程, 店交通, Labor, 客户调查和审计数据.
  • 开发了一个通用框架,使用spark从不同的数据源(Teradata到S3和S3到Snowflake等)摄取数据.,)
  • 为数据处理开发了可重用的spark脚本和函数,可以在不同的数据管道中使用.
  • 使用Kafka摄取实时数据.
  • 设计、开发Azure (AAS) & 用于数据可视化的SSAS)多维数据集.
  • 使用Sqoop从Oracle数据库中获取数据并存储在S3上.
  • 致力于从JSON中摄取数据, 使用spark和EMR生成CSV文件,并将输出数据以Parquet文件格式存储在S3上.
  • 集成的本地数据(MySQL), Hbase)与云(Blob存储), Azure SQL DB),并使用Azure数据工厂应用转换来加载回Azure Synapse
  • 在Snowflake和数据产品上构建的ETL管道供涉众用于查询,并作为可视化的后端对象.
  • 配置Spark流接收来自Apache Flume的实时数据,并使用Scala将流数据存储到Azure Table, DataLake用于存储和执行所有类型的处理和分析. 使用Spark Dataframes创建数据帧.
  • 使用Spark实现定制的输入适配器, Hive, 和Sqoop从各种来源获取数据进行分析(Snowflake, MS SQL, MongoDB)到HDFS. 使用Sqoop、Flume和Spark Streaming API从web服务器和Teradata导入数据.
  • 通过利用Spark Context, SparkSQL和Spark Streaming处理大型数据集
  • 通过调整内存参数和集群配置,对spark作业进行性能调优.
  • 监控和配置业务流程工具,如Kubernetes.
  • 熟悉AWS服务(S3, EMR, Athena, EC2), Snowflake和大数据技术.
  • 为支持团队提供知识转换.
  • 使用气流对数据管道进行调度和编排.
  • 通过使用Azure DevOps和VSTS (Visual Studio Team Services)进行CI/CD改进了安全性, 活动目录, 和Apache Ranger进行身份验证.
  • 使用Azure Kubernetes Service跨集群管理资源和调度

环境: Hive, Spark SQL, Spark, PySpark, EMR, Tableau, Sqoop, AWS, Python, Snowflake, Teradata, Azure AAS & 介绍英国、卡夫卡, Apache.

保密,孟菲斯,田纳西州

大数据工程师/ Hadoop开发人员

职责:

  • 设计鲁棒, reusable, 以及可扩展的数据驱动解决方案和数据管道框架,以自动摄取数据, 使用Python编程处理和交付结构化和非结构化批处理和实时数据流数据.
  • 参与构建数据仓库结构, 创造事实, dimensions, 总表, 通过维度建模, 星型和雪花型模式.
  • 对加载到Spark数据帧中的数据进行转换,并在内存中进行数据计算,生成输出响应.
  • 熟悉Spark应用程序和Hive脚本的故障排除和调优,以获得最佳性能.
  • 在平台上使用Spark 数据帧 API对Hive数据进行分析,并使用Spark Data Frame操作对数据进行必要的验证.
  • 构建端到端的ETL模型,对大量的客户反馈进行分类, 获得可操作的见解和切实的业务解决方案.
  • 通过在Apache气流中构建dag来调度ETL作业,优化工作流,并在Apache气流中实现额外的组件,如Pool, Executors, 以及多节点功能.
  • 使用Spark Streaming将流数据分批划分,作为Spark引擎的批量处理输入.
  • 为数据验证编写Spark应用程序, Cleansing, 转换, 自定义聚合和使用Spark引擎, 用于数据分析的Spark SQL,并提供给数据科学家进行进一步分析.
  • 准备脚本,根据需要通过各种来源(如API)使用Pyspark自动化摄取过程, AWS S3, Teradata和Snowflake.
  • 创建了一个业务类别映射系统,自动将客户的业务类别信息映射到任何源网站的类别系统.
  • 分类平台包括Google, Facebook, Yelp, Bing等.
  • 开发数据质量控制模型,监控业务信息随时间的变化.
  • 该模型使用不同的api标记过时的客户信息进行验证,并用正确的数据更新它.
  • 负责监控客户评论的情感预测模型,确保ETL流程的高性能.
  • 使用Spark和Python进行数据清理、预处理和建模.
  • 使用AWS(λ)为数据消费实现了实时数据驱动的安全REST API, API网关, Route 53, 证书管理器, CloudWatch, Kinesis), 和雪花
  • 开发自动化脚本,将数据从本地集群传输到Google Cloud Platform (GCP).
  • 将ADLS Server上的文件数据加载到Google Cloud Platform Buckets中,并为最终用户创建Hive Tables.
  • 参与长时间运行的spark作业和查询(Hive/SQL)的性能调优和优化
  • 使用Kinesis Firehose实现了AWS CloudWatch日志到Splunk的实时流.
  • 使用面向对象的方法开发了一个仪表板,用于使用Django监控所有网络接入点和网络性能指标, Python, MongoDB, JSON.

环境: Hive, Spark SQL, PySpark, EMR, Tableau, Sqoop, AWS, Presto, Python, Snowflake, Teradata, Azure AAS & 介绍英国、卡夫卡.

保密

AWS Python开发人员

职责:

  • 分配权限, 使用awidentity和Access Management (IAM)向用户和组提供策略和角色.
  • 利用Git开发了一个全自动持续集成系统, Jenkins, MySQL和用Python和Bash开发的自定义工具,每年节省8.5万美元.
  • 开发复杂的Hive脚本处理数据,在Hive中创建动态分区和bucket,提高查询性能.
  • 开发服务器端软件模块和客户端用户界面组件,完全部署在AWS的Compute Cloud中.
  • 实现Lambda配置DynamoDB自动伸缩功能,实现Data Access Layer访问AWS DynamoDB数据.
  • 使用Python和BOTO3库自动进行夜间构建以运行质量控制,以确保管道不会失败,从而减少70%的工作量.
  • 在AWS SNS等AWS服务上工作,在夜间运行后使用BOTO3自动发送电子邮件和消息.
  • 创建AWS Lambda, 在AWS环境上配置EC2实例并实现安全组, 管理的Amazon VPC.
  • DevelopedPythonAWSserverless lambda具有并发和多线程功能,使处理速度更快,并异步执行可调用对象
  • 使用Datadog API和摄取监控AWS EC2机器中的容器, 将数据充实到内部缓存系统
  • 使用python脚本将数据从较大的数据集转换为较小的数据块,这对于更快的数据处理非常有用.

环境: AWS, S3, EC2, LAMBDA, IAM, Datadog, CLI, Ansible, MySQL, Python, Git, Jenkins, DynamoDB, 云看, 步功能

保密

SQL开发人员

职责:

  • 从事应用程序开发工作, 特别是在UNIX环境下,熟悉它的所有命令.
  • 回顾基本的SQL查询和编辑内部,左, & 右连接Tableau桌面通过连接实时/动态和静态数据集.
  • 为全球服务报告和创建仪表板 & 技术服务(SSRS、Oracle和Excel).
  • 部署Excel VLOOKUP、数据透视表和访问查询功能来研究数据问题.
  • 参与审核业务需求和分析Excel数据源, 用于Oracle SQL Server的设计, 发展, testing, 报告和分析项目的生产周转.
  • 采用测试驱动方法开发应用程序,并使用Python单元测试框架实现单元测试.
  • 成功将Django数据库从SQLite迁移到MySQL,再迁移到PostgreSQL,数据完整.
  • 利用POSTMAN工具对GET等各种请求方法进行API测试, POST, PUT, 和DELETE在每个URL上检查响应和错误处理.
  • 使用Git作为版本控制工具对web应用程序进行调试和故障排除,与团队成员进行协作和协调.
  • 使用python -MySQL连接器和MySQL数据库包从python开发和执行各种MySQL数据库查询.
  • 使用Python设计和维护数据库,使用SQL Alchemy和PostgreSQL开发基于Python的API (RESTful Web Service).

我们希望得到您的反馈!