导读:本篇文章首席CTO笔记来给大家介绍有关大数据面试项目哪个好的相关内容,希望对大家有所帮助,一起来看看吧。
shopee大数据sre面经
我对shopee是有一些情怀在里面的,早在17年的时候我就面试过它们的大数据岗位(base新加坡),年少轻狂的我当时没有针对性的好好复习,且项目积累的也不够,导致第二轮就被pass了。现在随着年龄的增长,我已经断了出国的念想,最终选择了深圳shopee作为此次跑路的目标公司。
本次跳槽,我制定了一个详细的计划,从复习内容到时间把控两个方面结合起来。大体情况如下:
时间安排上:
具体到一天的时间,因为是在职情况,所以系统的时间只能到晚上,一般就强迫自己从21:00复习到23:30左右。
20210301找人内推简历到shopee--20210308一面--20210312二面--20210317三面--20210324 offer沟通,然后第二天收到offer
一面:mentor面试,以基础为主
1、kafka的rebalance过程
2、zkfc的fence机制
3、jvm内存模型以及gc算法,垃圾收集器
4、clickhouse表引擎
5、spark的stage划分
6、spark straming与flink的区别
7、通讯网络上的tcp三次握手,四次挥手
8、常见数据结构,hashmap
9、算法题,leetcode179
10、Linux的文件系统设计,以及常用命令
二面:leader面试,以项目为主
1、hdfs读写流程,yarn调度器区别以及标签功能,hive倾斜问题以及小文件优化,spark资源优化
2、集群监控报警如何做的,不同组件的报警策略是什么,报警信息是否有合并
3、数据治理怎么做的,元数据管理,数据生命周期管理以及数据质量
4、数据迁移项目担任的角色,讲下迁移背景以及采用的工具,具体实施方式是怎样,过程中遇到的问题有哪些
三面:boss面试,以工作经历为主
1、自己对哪个组件非常熟(hdfs),数据规模怎样,做了哪些优化,namenode内部结构是怎样,它的qps是多少,hdfs关注的监控指标有哪些
2、工作中处理过的事故是什么,介绍下场景,当时如何解决的,问题是如何定位的,有没有什么更好的解决方式彻底解决
3、对大数据sre的理解
4、然后boss简单介绍了下shopee的大数据团队架构,个人的成长路线等。
四面:hr面,工作经历及谈薪
简单自我介绍,各个阶段离职的原因,期望薪资,目前offer情况等。
最后就是背调了,这个阶段一般要一周左右的时间,最后就是入职了。
总的来说,shopee的面试偏基础与自己的实际工作经历,考察范围比较广,需要掌握基本的网络知识,熟练编码能力,精通专业技能。最后祝愿所有跑路的同学们都拿到自己理想的offer!
(shopee最近很缺人哦,有想法的同学可查看: ;mid=2247483747idx=1sn=aaf8361ca6fbd47245fd0c92d274eb85chksm=c24ed360f5395a76af2dba45e814bf5cd1d39b739deff18584753d677f96945ef7a6b552ea14token=90945026lang=zh_CN#rd )
大数据开发比较好面试的地方
大数据开发比较好面试的地方在于更加注重强调自身的学习英语专业的语言词汇量的扩充、语言语法的运用、写作能力和口语表达能力,对提升自己的英语专业知识都具有一定的影响力作用。
美国大数据工程师面试攻略
项目数据分析师分享:美国大数据工程师面试攻略
方法/步骤
先做一个自我介绍,本科南开后,加入了一个创业公司kuxun,做实时信息检索,后来进入百度基础架构组,搭建了Baidu App Engine的早期版本,随后去Duke大学留学,在攻读硕士期间,做跟Hadoop大数据相关的研究项目Starfish,之后在Amazon EC2部门实习,了解它们的内部架构,毕业后加入Linkedin,做广告组的架构,涉及Hadoop调优,Data Pipeline, Offline/Online, 实时系统。最新是在Coursera从事数据工程师工作。在多年工作中,除了对技术的不懈追求,也积累了大量的面试经验,从国内的一线互联网百度,阿里巴巴,奇虎,人人,到美国一线公司Facebook,Google,Linkedin,Twitter,Amazon,到热门Startup,Uber,Pinterest,Airbnb,Box,Dropbox,Snapchat,Houzz,拿到10+ offer,并且在Linkedin期间也面试过100+候选人,参与面试题制定,乐于分享并帮助很多人成功求职,实现目标。
我们看一下这张硅谷地图,它坐落于美国加州,从圣何塞到旧金山的狭长地带,中间是San francisco bay,简称湾区。它的由来是这边有计算机核心处理器中离不开的硅,30年来,硅谷就发展成为无数技术性创业公司的摇篮。在20多年前,就有很多硬件公司的辉煌Intel,Oracle,Apple,Cisco成功上市,10年前,互联网的兴起,造就了Yahoo,Google,Ebay的神奇,而如今Tesla,Facebook,Twitter,Linkedin正扶摇直上,成为美股高科技股的领头羊。这些公司的市值从几十billion到几百billion,PE从负数到上千。疯狂的估值背后也改变了世界。
如果说硅谷成功是有原因的,我觉得有两点。地理位置是得天独厚吸引大量人才,这里有Stanford和加州州立高校提供智力库的支持,在硅谷可以看到来自全世界的最聪明的人,中国人,印度人,犹太人构成这些Engineer的主力。虽然国内做技术自嘲为码农,但在硅谷成为一个优秀工程师还是收获颇丰。另一方面创业是一个永恒的话题,在Stanford有个说法空气中都飘扬中创业的味道,一些早期员工通过上市套现又积累经验成了天使投资,Y Combinator,各种技术forum,meetup,创业导师,都很活跃。资本的力量功不可没,早年VC通过投资,收购,上市放大形成一个雪球效应。大家总喜欢问什么是next big thing,哪一个是下一个facebook,下一个musk,根据统计10年能成就一个千亿以上的公司,目前这个进程正在缩短。
我就拿Linkedin作为例子,介绍高科技公司(FLG)是什么样子。它是成立2003年的职业社交网站。在10年的发展中,也不是一下子爆发的,目前有3亿的全球用户,虽然跟Facebook,Google 10亿+用户没法比,但是它有很好的护城河,用户定位高端精准,单位价值高。这张照片中左边这位是创始人Reid Hoffman,是Paypal黑帮成员,在硅谷也是呼风唤雨的大佬,目前是董事和投资人。中间这位是CEO Jeff,2013年被Glassdoor评为最佳CEO,作为职业经理人,成功帮助linkedin高速成长,他最喜欢提到transformation,希望我们每个员工能挑战自我,在各自岗位上进化。Linkedin提供了员工很好的福利,有号称湾区最佳的免费食堂,每个月一次的in day,hack day, 帮助员工内部创业的incumbator计划。它特点是数据驱动的开发产品,比如 People you may know, Job you may be interested, 我做过Sponroed Ads 都是需要很强数据背景和data scientist的支持。它的Biz model也很独特,有3个line,面向公司的招聘服务,面向广告商的市场服务,面向个人的订阅服务,还有最新Sales Solution,因为这么多可能性,成为华尔街的宠儿。
说硅谷,除了那些已经成功的大公司,不得不说现在最新的创业动向,这些代表了未来下一个FLG。我总结了一些领域和代表公司:云计算(box, dropbox),大数据(cloudera),消费互联网(pinterest),健康(fitbit),通讯(snapchat),支付(square),生活(uber)。 这里是华尔街网站更新的最新融资规模,比如Uber就达到18Billion的估值,我当时拿到offer没去,还是觉得很疯狂,如果细看这张表,大家可以看到硅谷(蓝色)尤其是旧金山它们的融资规模远远大于其他地区,还是地理决定论。而在国内的两家xiaomi,jingdong都是在北京,而最近大家看到一些泡沫论,说什么阿里巴巴上市是否美股到顶,经纬VC创始人也提醒我们泡沫的风险,我无法判断。如果能参与到下一波浪潮里面去是很过瘾的。我推荐大家去看看 浪潮之巅,奇点临近,我还是很期待未来20年的技术革命。
我个人热爱大数据,在硅谷这也是大家津津乐道的,有个笑话,big data is like teenage talking about sex, nobody know how to do it. 其实大家还是兴趣驱动就好,不要那么功利,大数据技术涉及太多,平常工作中也是慢慢积累,有无数的坑和技术细节需要克服。并不是说那个技术最热就要用哪个,如果你用不好,你的压力很大的,举个例子,你用某个开源数据库,发现它偶尔有数据丢失怎么办,如果这是线上服务,你不断收到报警,这时候你当时选用它的优点 scalable,容错性都没意义了。接着说大数据,这里面Hadoop作为行业标准,我面过的除了Google,微软不用,几乎所有的公司都在用,建议大家利用这个机会。这里面有三巨头,cloudera是老牌Hadoop咨询公司,Hadoop的创始人做CTO,Hortonworks也是很多Hadoop的committee,MapR是提出hdfs的erasure 编码方式高效而著名,它们都是融了巨资,模式也很像,先推出社区免费版,但有个商业版提供更好的管理。 而今年出现一匹黑马,Spark,简单说就是内存级别的计算,比Hadoop框架里能节约IO,利用缓存,能适应批处理,迭代,流式计算。
这里看一下它的生态系统,如何学Hadoop是个循序渐进过程,先要理解学习它的core系统,HDFS, MapReduce, Common,在外围有无数的系统工具方便开发,我个人用过的是 Avro作为数据格式,Zookeeper作为选主的高可靠性的组件,Solr作为搜索接口,Pig搭建工作流,Hive 数据仓库查询,Oozie管理工作流,HBase 作为KV 分布式存储,mahout数据挖掘的库,Cassandra nosql 数据库。我建议初学的考虑Chinahadoop的课程。
而Hadoop本身也是个进化过程,几年前0.19版本,到0.20, 0.23分流成Yarn架构最后进化成Hadoop2.0, Hadoop1.0 和 2.0 它们的接口和组件是完全不同的,但总体上Hadoop 2.0 是趋势,因为它有Yarn这样分离的资源管理平台,可以以插件的方式开发上面的Application,解放了生产力,而像Spark,Storm这些新型处理器也是支持Hadoop 2.0的。这里是Hortonworks它们提出来的社区版本架构,可以说标准的制定者,一流的公司制定标准,其他的公司一般用只能用它们提供的稳定版,没有多少话语权。但从事大数据,并不见得是要去这些制定标准的公司,大量的应用也是非常考验架构的灵活性。并且能看到实际的产品,很有成就感。
说到今年火的,还是要看Spark。从去年至今,已经开了2届Spark大会,上千人的规模,无数人对比Hadoop 100倍的性能提升而兴奋。这里说它的背景是诞生于Berkeley的Amplab,它们有个很有名的BDAS(Berkeley Data Analytics Stack),目前Spark已经成为Apache的顶级项目。去年这个实验室的教授跟学生出去成立Databricks公司,拉到两轮上千万的风投,有人成Spark是Hadoop的终结者吗?我看今年Spark大会上,所有的Hadoop大佬公司都是鼎力支持,像Cloudrea甚至放弃impala的一线支持而转变成Spark。如果这么发展下去,星星之火可以燎原啊。它里面用到Scala是一种函数式语言。里面的组件也很多,有Shark支持SQL类似Hive,有Spark Streaming,MLlib,Graphx,SparkR,BlinkDB。它的核心数据结构是RDD,可以跑在各种分布式系统上。总体上是个包容性+侵略性的系统。我个人也很看好它们的发展。
这几个大数据GitHub项目,太强了吧
大家好,我是 梦想家 Alex 。我们都知道 github 对于程序员们而言,就是一个巨大的“聚宝盆”,上面不仅有很多优质的开源项目,还有很多热爱开源分享的开发者。但如何从浩如烟海的宝藏中,筛选出适合自己的优质项目呢?本期内容,我就为大家推荐几个我认为还不错的大数据学习必备的 牛 X 项目,希望大家看完有所收获。
首推 heibaiying 的 BigData-Notes,该项目目前已经有高达 10.2K 的star,正如该仓库的介绍上简短几个字:大数据入门指南。这个项目也是我认为目前 最适合初学者学习和参考的项目 。
为什么说这个项目适合大数据初学者呢,可以通过观察项目的介绍文档,该项目包含了大数据学习必须要掌握的几种组件,包括 Hadoop,Hive,Spark,Flink,Kafka,Zookeeper,Flume,Sqoop,Azkaban,以及 Scala 函数式编程语言的教程 ,可谓是非常的系统全面
我们再借助谷歌插件 Octotree 观察项目的结构,可以看到该项目主要分为 code,notes,pictures,resources 四个目录
其中 code 目录主要用来存放各个组件使用相关的代码,正如统计的结果一样,这个项目中 Java 代码占了 94.8%,Scala 占了 5.2%,所以对于喜欢用 Java 编写代码的小伙伴们来说,这是一个不容错过的宝藏学习机会。
notes 部分主要存放相关组件的介绍和使用文档,其中 installation 子目录主要存放了相关组件编译,以及在Linux环境下各个组件的安装,单机/集群环境搭建的教程,我看过了内容,介绍的非常清晰详细。
另外两个目录 pictures 和 resources 就不做过多介绍了,一个是存放相关的图片教程,另一个是存放编写的代码中所需要用到的文本文件。
这个项目同样给力,是由 BAT 高级大数据架构师 王知无 创建的,该项目目前也已经斩获高达 5.2k star,是为数不多, 集基础学习和进阶实战 于一体的优质项目。
该项目按照大数据不同阶段的学习,所列举不同的文章干货
大数据开发基础篇
大数据框架学习篇
大数据开发实战进阶篇
大数据开发面试篇
从不同的分类足以见 王老师 的用心。同时,王知无前辈也是 51CTO 上的认证讲师,来看看官方的介绍 。
相信很多同学在学习大数据的过程中,不清楚 Java 需要学习哪些内容,掌握到什么程度,这个时候完全可以借鉴王老师的这个仓库内容。
同时,学习这个仓库的内容,可以学习到作者作为架构师本身对于 JVM,分布式理论和基础,大数据框架基石之网路通信Netty,以及各个框架的源码学习,可谓“ 真.宝藏仓库 ”
除了基础的理论学习以外,还有大量实战性的内容可以借鉴参考
以及大量的面试题,还有自己从零到大数据专家一路走来的心路历程,学习路径指南,和自己对于技术学习的一些深入思考,相信大家拜读过后一定能收获满满,
这个项目比较特殊,是一个国外开发者开源的项目,英文翻译过来的意思是“很棒的大数据”,实际上呢~他列举的是很多很棒的大数据框架、资源和其他很棒的精选列表。灵感来自 awesome-php 、 awesome-python 、 awesome-ruby 、 hadoopecosystemtable 和 big-data 。目前也已经斩获 10.2K 的 star,非常强势。
为了方便阅读,我将其全部翻译成中文进行展示。
我们跳转到 分布式编程,可以看到很多我们熟悉的技术,例如 Flink,Spark,Pig,MapReduce 等等 ....
亦或者“分布式文件系统”,我们所熟知的 HDFS,Kudu,GFS ...
点击对应的链接,可以跳转到对应的官方介绍页,方便我们减少搜索成本,快速了解不同领域大数据常用的技术组件,为我们之后做技术调研省了很多的时间。
让我厚颜无耻的夹带一下“私货”。这是我在今年年初的时候,创建的一个仓库,目前也已经有了快 200 的star 。从资历和star的数量显然不能跟前面几个大佬相比,但却是我第一次花费了大量精力,将一个项目像孩子一样进行“培养”。
为了设计一个好看的图标,还花了不少的精力。设置不同媒体平台的徽标设计,还参考了像 JavaGuide 这样的头部项目,也算是在亲力亲为的这个过程中,学到了不少东西。
可以放点内容给大家show一下
另外,我还开设了“福利”专栏,将自己学习过程中收集到的学习干货毫无保留地分享给大家,方便大家获取。
显而易见,这个是专注于 flink 学习的开源项目,其中的内容包含Flink 入门、概念、原理、实战、性能调优、源码解析等等,目前已经斩获了 10.5k 的 star,非常强势。
其维护的开发人员也是非常用心负责,一路跟随 flink 的版本,不停的在维护更新 。
同时,主要维护者 zisheng 还将 flink 的研究做到了极致,不仅有 flink 成体系的博客链接,还有对应的源码系列。
还自己创建了专栏《从1到100深入学习Flink》,并将大家学习过程中有疑惑的地方解决过程统一记录下来,方便有需要的同学查看。虽然是付费的星球专享,但我觉得是真的值!感兴趣的话大家可以自行去了解。
结语:以上就是首席CTO笔记为大家整理的关于大数据面试项目哪个好的相关内容解答汇总了,希望对您有所帮助!如果解决了您的问题欢迎分享给更多关注此问题的朋友喔~