你的GitHub爆款项目,面试官可以问都不问

简历上写了一堆成功的项目,面试官那儿真的管用吗?过来人外示:未必。即日,Towards Data Science 项目主管和 Recurly 数据科学家 Haebichan Jung 发文先容了他的阅历。他外示,项目做得众、做得好可以简历筛选阶段比较有用,但面试官可以基本不体恤你的项目,而是通过「智力查验」决议你的去留。

项目心态

野心勃勃的数据科学家是怎样取得高薪位置的?实人们对此有很大的歪曲,认为这和做过的项目相关。

 这里所说的「项目」是指某种放 Jupyter Notebook 上的最新板滞进修或深度进修算法,而且会被上传到 GitHub。你可以期望借此取得面试官的好评。 

但猜猜结果怎样?那些面试官实行上不会读众少你的私人项目代码。假如你认为项目很主要,你就有我所说的「项目心态」。 

项目心态:(名词)心里念兹遇的板滞进修项目越众,简历里的项目越丰厚,取得高薪数据科学位置的可以就越大;但实行上,这不会让许众人认为你很厉害。

为什么这么说呢?因为我之前便是如许的蠢蛋。我之前就花了许众珍贵的时间来做种种差别的项目,以便扩展我的「私人体验」,有些项目还取得了数据范畴中某些出色人物的承认。

但现,举措旧金山的一位数据科学家,我发明本人做错了,更倒运的是另有许众人会步我的后尘。这篇作品是念要向你发出项目方面的警报,告诉你项目究颈ボ给你供应众少帮帮(提前预警:没众少)。 

PS:请记住,我只申请了加州旧金山的数据科学家岗亭。于是我的看法可以与你的地舆位置或所申请的岗亭并不相符。而且这掖掖偾我一私人的看法(实行上是两私人,后面会说到)。但这个故事内中有些东西是普适的,因为我看到天下上许众人都被「项目」所带来的(过失的)吸引力和潜力所服气。

项目火得乌烟瘴气,但面试官基本不 care

面试之前,先花几周做个项目

我申请数据科学岗亭之前,我花了 4-5 周的时间来做本人的项目,因为那时分我认为这才是准确的做法。举措一位专业钢琴师,我念做少许相关音乐的东西。这让我当心到了神经收集,特别是 LSTM,我念用它来生成新音乐。 

我花了整整两周时间来阅读相关这一中心的学术论文,现回过头看,我大约懂了此中 30%。但那 30% 中,有些东西真的让人很困扰。我认为某些研讨 AI 生成曲调的研讨者并没有对音乐的根底常识有深度的了解。你可以看出来这一点,因为他们运用了十分繁杂的神经收集架构来创制新声响,但这些架构并不行反应真正的音乐家作曲的方法。

运用 LSTM 创制音乐的学术研讨示例 

这让我深感困扰,于是我决议基于隐马尔可夫模子从头创立一个算法。我写了大约 800 行纯 Python 代码,开辟出了我本人的音乐生成算法。我称之为 Pop Music Maker:https://github.com/haebichan/PopMusicMaker。Pop Music Maker 以音乐数据为输入,剖析出此中的音符,然后寻找这些音符之间的统计学联系,着末基于这些统计状况从头创立一首全新的风行音乐曲。

Pop Music Maker 的架构根底

项目太火,网站解体

我 TowardsDataScience.com 发了一篇作品先容我的项目。不过几天时间,这篇作品就火了。每天都稀有千人阅读这篇作品,特别是当或人将我的作品发到了 HackerNews 之后。当我看法到这篇作品火了时,它曾经 Twitter 和 LinkedIn 上扩散开来。然后,Numpy 的创制者和 Anaconda 的创始人 Travis Oliphant 以及 O』Reilly Media 的 Ben Lorica 都他们的社交媒体上分享了我的实质 

跟着我的项目越来越为人所知,每天都稀有百人通过我修的一个 flask 网站运用我的算法。这导致我的网站不时解体,因为我安排代码所用的 AWS EC2 实例太小了,缺乏以处理这么大的流量。网上有些人开端指摘我是骗子,因为他们念尝尝我的算法,却发明网站基本打不开。

这便是我的那篇热萌喻品:https://towardsdatascience.com/making-music-when-simple-probabilities-outperform-deep-learning-75f4ee1b8e69 

不久之后,这些批判很速就许众社交媒体上开展成了火力全开的争辩。某些具有博士学位的研讨者愤恨地指出我运用的基于贝叶斯的方法完备便是错的。另少许人则为我分辩,为我的义务做辩护(包罗 Ben Lorica)。简单来说,我互联网的某些地方从头点燃了「贝叶斯派 vs 频率统计学派」的圣战。

早先,我决议向那些因为某些启事而感受被冒犯的人性歉,我也礼貌地问了他们我该怎样改良我的方法。但道了几天歉之后,我再也受不分明。这场狡赖让人心力交瘁,我只念让本人躲开互联网。我关掉了我的所有电仔“备。

然而,应聘时没人问我项目标事故

 你可以会认为尽管有争议,但假如把这个项目放我的简历中,定能帮我找到数据科学义务。但结果是:并没有。除了某个小创业公司的一私人问过我,其他人没人乎。从宏观上来看,我所面临的炙热火焰只是湾区科技界的飓风吹过来的一点小火星罢了。 

更主要的是,延聘委员会的成员并不会这些项目上对我举行测试。因为延聘流程不是看你做过了众少项目。但我看到很大都据科学义务的应聘者却会这么念。 

这可不是我的一家之言,采访 DoorDash 的 Jeffrey Li 的进程中,他也说到了那些野心勃勃的数据科学家身上看到的缺陷:

「大大都数据科学家身上,我睹过的最大缺陷是将板滞进修模子与商业效果联络起来。以是,许众十分十分聪慧的人会打制出这种十分繁杂的五层神经收集。它能做出很好的预测,分数也十分高。但当我们追究这个特定模子的商业效果时,他们一般又难以作答。」

假如数据科学延聘不是基于项目,又是基于什么呢?基于延聘方所说的「智力测试(Intelligence Testing)」。

污名昭著的「智力测试」

我并不喜爱「智力」这个词,因为这个词暗含了心思禀赋的意义(你要么有,要么就没有)。但不幸的是,我技能延聘天下里常常(而且是秘密地)睹到这个词。我老是听睹有人以某种方式背后说:「对这个技能义务来说,谁人人智力不敷/不敷聪慧。」我最早是加州湾区的软件工程师摰友那里听到这种说法的。

之前,我看来,如许的说法十分具有压迫性,而且很空虚。可是,长时间考虑了科技界所用的「智力」一词之后,我开端了解实行的寄义了。了解了它的寄义之后,我发明这基本就与「心思」无关——也便是说任何人都可以通过充沛的准备来晋升。更主要的是,我发清楚随手通过数据科学面试的秘诀。 

智力测试是所有延聘流程的根底。这是技能题目测试、带回家查验开辟才能以及面试题目的根底。智力测试有四大主要元素,即:

  • 剖析思念

  • 变量提取

  • 边沿案例检测

  • 流扯菖化 

前面三个是最主要的,具有第四个会锦上添花。而且岛闲聘者前三个方面临你有所了解之后,他们会问到第四个。这四个方面都是为分明解你未来的技能岗亭上的潜力和才能。 

简明阐明:下面四个武艺十分主要,可是了解统计学、写代码和 SQL 也很主要。我认为这是每私人都晓得的显而易睹的事故,以是这里就不道那些常识根底了。

剖析思念

剖析思念是指将大题目剖析成容易办理的差别部分以一一办理的才能。简单来说。这是要修立一幅心智道线图,此中包罗众个反省点,最终告竣着末的办理方案。

 权衡这部分智力的方法要么是通过实行的编码艰难,要么是通过表面上的营业/产物题目。面试官会向你展现一个乍看之下觉得很绽放的题目。这是成心的,因为这个题目的谜底并不是测试的目标。以是你的办理方案是否真的有用实无足轻重。这个题目的要点是评估你谐和众步方案来办理繁杂题目的才能。 

为什么要测试这种才能呢?因为实行的数据科学义务中,有的题目好坏常繁杂的,难以通过一步到位的方法取得办理方案。于是必需订定计谋上的道线图,要列出每一步对营业和技能方案的影响,有哪些优点和缺陷。要做到这一点,数据科学家必需具备一个灵敏、有计谋思念的思维,才干取得有可识另外反省点的种种有用的办理方案。 

关于念要晋升这项武艺的应聘者而言,可以去办理尽可以众的 Leetcode 题目。也要读读数据科学产物的题目。下面是一个产物题目示例:

一家外卖公司正发布一款有新 UI 的新运用。其目标是通过添加外卖员的里程数来晋升他们的收入。请给出一种测试计谋,以便了解这款新运用是否比旧运用更好。

变量提取

变量提取是指为理办理手头上的题目,你可以念出众少个相关的变量。举个例子,给你如许一个场景:「一栋修筑物中有两台电梯,少许人埋怨说此中一台比另一台慢。你需求什么才干确定这些埋怨是否合理?」 

这类思念实行一般是由不太了解数据科学的产物/非数据职员提出,他们念要借此了解你的「智力」。这里的智力是指你是否有才能念象出办理这个题目的变量(能不行念到面试官本人所念到的那些)。 

但你怎样才干和一个生疏人念得相同呢?但幸而(我认为)这些实行中 99% 的变量都属于这几大类: 

1. 时间(高峰时间是否影响电梯的速慢?)

2. 位置(也许某些楼层运用电梯的人比其它楼层众?)

3. 技能(也许电梯保管一个技能题目,这人的内在感知除外。)

4. 用户统计(修筑物中有什么人?访客会运用一个电梯而义务家则运用另一个电梯吗?) 

变量提取为什么很主要?因为其直指实行的中心。施行实行需求相关的变量来举行测试,假如你可以提出更适宜的变量来晋升测试的准确度,以致高出面试官的念象,那么这个武艺将极有代价。 

你可以通过研讨尽可以众的差别数据来晋升这方面的智力,像是时序数据、地舆位置数据等等。只消能拓毡ャ对差别常识范畴数据的了解,都值得一试。

边沿案例检测

边沿案例检测一般是你的面试官了解完前面两项之后呈现。足够了解了前面两种智力之后,面试官会给你制制一个艰难。他/她会用某种方法完备推翻你为办理题目而念出的道线图和变量。

这是面试进程中的难点,因为你会感受担忧,因为你的逻辑被发清楚漏洞。你要沉着下来,细心听司理话语中扔出的表示。一般来说,他们的思维中曾经有少许谜底了,你必需念方法找到它。他们会丢出少许线索提示,能提示你找到他们思维中的谜底。 

他们制制如许的能时ャ偏离考虑流程的艰难是为分明解你处理从没碰到过的状况时外现怎样。实行上,数据科学义务流程中,你没念到过的边沿案例另有许众,特别是开辟产物时。 

怎样练习?这个还真没法练习。当碰到这种状况时,做个深呼吸,提出题目,搞分明你需求做什么,而且紧跟线索。

流扯菖化

着末这一项是可选的,而且假如时间足够,一般呈现技能面试的着末。这一武艺基于第一项智力测试(剖析思念)。一朝你脑子内中念出了一种特定的方法,司理就会问你槐ボ不行念出办理这个题目的更好方法。

 为什么要如许做?因为行业中所稀有据科学义务一开端都很粗拙,需求众次迭代才干改良。但这项义务只要第一版粗拙效果完毕后才干举行。于是我认为这个才能的优先级比不上前三个。

项目终究什么地方有用?

我置信项目找义务初期照旧有些感化的。我看来,项目能办理一下题目:

1. 修立自大。许众人将完毕项目看作是申请公司义务之前的须要前置方法(心里的仪式感)。

2. 练习变量提取和优化。项目能让你实验许众差别类型的数据。让你能通过实行义务流程来优化数据处理方法,等等。

3. 让你有时机博得初始延聘职员的承认。初始延聘职员的义务不是举行智力测试,而是为面试官筛选候选人,然后让面试官去测试。项目也能让初始延聘职员晓得你对数据科学的主动性和加入。项目能帮帮你很好地展现出这一点。

但颠末初始的筛选后,项目标主要性就不高了。启事有三点:

1. 项目无法帮帮你通过技能题查验。

2. 项目无法为你举措数据科学家的潜力供应外部验证——只可告诉面试官你能很好地复制或记忆已有的代码。

3. 面试官没有时间阅读你一页又一页的条记。他们每天都要处理几百份申请。他们还必需办理本人的团队——这曾经足以占用他们的通通义务时间了。

要点是着末一点,你需求的外部验证是你完毕过的义务。换句话说,你的板滞进修项目上取得 83% 的 AUC 并不行为面试官了解你举措数据科学家的潜力供应众少帮帮。可是,假如你说稀有百人实验过你的板滞,你展现的东西就比较有力度了。

还没有被我说服?那最厥后听听哥伦比亚大学数据科学研讨所主任的话吧: 

Jeannette Wing 主任:「有些特定的办理题目的技能和方法是盘算机科学家每天都要做的事故。此中包罗:

1.怎样计划一种算法来办理这个特定的题目

2. 怎样将这个特定题目剖析为更小的部分

3. 怎样定义笼统层

4. 怎样定义组件之间的接口

这是求解题目的技能的汇合,也是完成大系统息争决大题目的方法——这便是我所说的像盘算机科学家相同考虑。」

 我也曾问过 IBM 一位高级数据科学家:「举措一位数据科学家,最主要的才能是什么?」

他答复说:「IBM 的所有人都有一个配合点,便是他们都是参谋。他们需求有才能与客户协作。他们需求与高管开会而且聪慧地议论办理方案。」 

原文链接:https://towardsdatascience.com/sorry-projects-dont-get-you-jobs-3e5d8e74bfdc


财产顺序员面试
1
暂无评论
暂无评论~