數據科學一直是個引人注目的領域,尤其是對于那些有計算機科學、統計、業務分析、工程管理、物理、數學等學科背景的年輕人。但霧里看花始終看不清晰,人們總是認為數據科學背后有許多神秘的地方,覺得它不僅僅是機器學習和統計。
多年來,我與許多專業人士討論過該如何進入數據科學領域。為什么總有關于數據科學的炒作?能夠幫助人們走進這一領域的仍然是統計數據和機器學習嗎?未來也仍是如此嗎?
兩個月前,我從研究生院畢業后直接作為數據科學家加入了媒體巨頭ViacomCBS。除了研究助理和實習之外,沒有任何全職行業經驗。我的工作職責包括從構想、開發到生產ML產品,使用過文中列出的大部分工作方式。希望本文能幫到所有有志于進軍這一領域的數據科學家和機器學習工程師們。
為什么總有關于數據科學的炒作?
幾乎人人都想要進入數據科學領域。幾年前,數據科學領域存在供需問題:自從DJPatil博士和JeffHammerbacher創造了Data Science一詞后,對數據科學家的需求大大增加,相關人才顯得供不應求。
到了2020年,情況有所好轉。受到過正規或者MOOC教育的數據科學愛好者的數量有所增加,人才需求也有所增加,但沒達到前者的增長程度。這一術語所涵蓋的領域越來越廣泛,包含了人們進行數據科學工作所需的大多數功能。每個人都在談論數據科學,但大多數卻不得其法。
我認為數據科學總被炒作有以下幾個原因:
前沿發展
工作滿意度高
業務影響巨大
數據生成量增加
數據科學家頭銜背后的神秘感
數據很好看!(不是字面意思~)
大量學校和訓練營能提供數據科學學位
許多招聘網站將其評為最熱門的工作(最近3年被Glassdoor評為美國最熱門的工作)
自稱是數據科學家的人?
總有人會這么介紹自己,所以讓我就當前的行業狀況講一些真相。
由于職位需求的增加和數據科學家頭銜的光鮮,許多公司已開始將產品分析師、商業情報分析師、業務分析師、供應鏈分析師、數據分析師和統計學家的職位改為數據科學家,因為許多人離職的原因便是去應聘數據科學家的職位,但實際上這些公司提供的工作內容往往是一樣的。
許多人從職位頭銜微小的字詞變化中感到了被尊重。因此,公司們以相同的思路改變職位名稱,使他們的職位顯得更耀眼也更令人期待,例如數據科學家-分析方向、產品數據科學家、數據科學家-增長方向、數據科學家-供應鏈方向、數據科學家-可視化方向或數據科學家,還有什么不能加的方向?
大多數接受教育或者在線培訓的人都有一個誤區,認為所有數據科學家都會建立精致的機器學習模型,但這種認知并不完全正確。我剛開始攻讀應用數據科學碩士時就是這樣想的,以為大多數數據科學家都是做機器學習。
但是當我開始在美國實習和就業時,才逐漸了解真相。推動人們走向數據科學的力量,其實源自對人工智能及其業務影響的炒作。
下一代數據科學家——機器學習
在2020年,對于想要以數據科學家-ML方向(這樣命名因為它不是數據科學家-分析方向)的身份進行應用機器學習,卻又沒有博士學位的人來說,除了人人都可做的將機器學習應用到數據集,可選的方法更多了。我將從自身經驗出發分享一些關鍵點,或許有助于你的面試:
分布式數據處理/機器學習:掌握Apache Spark、ApacheHadoop、Dask等技術的實踐經驗能夠證明你可以大規模創建Data / ML管道。有以上任何一種技術的應用經驗都很加分,不過我還是建議使用Apache Spark(使用Python或Scala)。
生產環境機器學習/數據管道:如果可以親身體驗Apache Airflow就再好不過了。ApacheAirflow是用于創建數據和機器學習管道的標準開源作業編排工具。行業里已經在使用它,因此建議你學習并圍繞它進行一些項目。
DevOps/Cloud:數據科學領域,很多人都過分忽視了DevOps。如果沒有基礎架構的話,要如何構建ML管道?構建在本地計算機上運行的筆記本或代碼,并不像我們在課程中所做的那樣容易。你編寫的代碼應該可跨自己或其他人可能在團隊中創建的基礎結構進行擴展。
許多公司可能尚未布局ML基礎架構,正在尋找入門人員。即使在課程學習中,熟悉Docker,Kubernetes以及使用Flask之類的框架構建ML應用程序也應該是標準做法。我喜歡Docker,因為它具有可擴展性,可以構建基礎架構映像,并在Kubernetes集群上的服務器/云上復制相同的內容。
數據庫:必須了解數據庫和查詢語言。盡管SQL被嚴重忽略,但無論在任何云平臺或數據庫上,它仍然是行業標準。開始在leetcode上練習復雜的SQL將幫助到你應對在DS profiles中的某些編碼面試部分,因為你要負責在預處理進行時從倉庫中導入數據,這將簡化你在運行ML模型前進行預處理。使用SQL將數據傳輸到模型中時,大多數功能工程可以隨時隨地完成,然而很多人會忽略這點。
編程語言:推薦用于數據科學的編程語言是Python、R語言、Scala和Java,了解他們中的任何一個都可以幫助你解決問題。對于ML類型的工作,面試過程中都將進行現場編碼,因此你需要在自己覺得有效率的地方練習——Leetcode或者Hackerrank等。
如今,除非你足夠幸運,在行業中有一些重要的關系(建立人際關系網非常重要!)或擁有署名的出色研究記錄,否則只了解機器學習或統計學的話,你仍無法進入數據科學領域并學習ML。商業應用程序和領域知識往往需要工作經驗,但是除了在相關行業進行實習之外,這些經驗事先無從習得。
我也曾站在數據科學的路口徘徊,如今就要親歷下一代數據科學家進入領域的需求在當下成型。這個行業日新月異,需要你不斷調整自己跟上它的腳步。
責編AJX
-
數據
+關注
關注
8文章
7145瀏覽量
89584 -
機器學習
+關注
關注
66文章
8441瀏覽量
133087 -
數據科學
+關注
關注
0文章
166瀏覽量
10102
發布評論請先 登錄
相關推薦
深圳人形機器人行走視頻震驚英偉達科學家,下一個劃時代產品是AI機器人?
![深圳人形<b class='flag-5'>機器</b>人行走視頻震驚英偉達<b class='flag-5'>科學家</b>,<b class='flag-5'>下一</b>個劃時代產品是AI<b class='flag-5'>機器</b>人?](https://file1.elecfans.com/web3/M00/05/D2/wKgZPGeE4zmAegFeAHbRBY7AIpc834.gif)
螞蟻集團收購邊塞科技,吳翼出任強化學習實驗室首席科學家
下一代機器人技術:工業自動化的五大趨勢
AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感
《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得
IaaS+on+DPU(IoD)+下一代高性能算力底座技術白皮書
國科微AI首席科學家邢國良:打造全系邊端AI芯片,賦能下一代自動駕駛
![國科微AI首席<b class='flag-5'>科學家</b>邢國良:打造全系邊端AI芯片,賦能<b class='flag-5'>下一代</b>自動駕駛](https://file1.elecfans.com//web2/M00/FA/2D/wKgZomaMsBCACxtcABGh23WJg4k394.png)
天津大學科學家突破人類大腦器官成功驅動機器人
新華社:突破性成果!祝賀我國科學家成功研發這一傳感器!
![新華社:突破性成果!祝賀我國<b class='flag-5'>科學家</b>成功研發這<b class='flag-5'>一</b>傳感器!](https://file1.elecfans.com/web2/M00/F3/B0/wKgZomZ9ONuAUhAVAAAZQU0iJ6k876.png)
前OpenAI首席科學家創辦新的AI公司
24芯M16插頭在下一代技術中的潛力
![24芯M16插頭在<b class='flag-5'>下一代</b>技術中的潛力](https://file1.elecfans.com/web2/M00/C7/C5/wKgaomYNDb-APj1XAADMmxdUgA0497.png)
東盟能源和華為主編的《東盟下一代數據中心建設白皮書》正式發布
![東盟能源和華為主編的《東盟<b class='flag-5'>下一代數據</b>中心建設白皮書》正式發布](https://file1.elecfans.com/web2/M00/E7/D2/wKgaomZJmleAGGtJAAAXmVV-jks118.jpg)
使用NVIDIA Holoscan for Media構建下一代直播媒體應用
NVIDIA首席科學家Bill Dally:深度學習硬件趨勢
![NVIDIA首席<b class='flag-5'>科學家</b>Bill Dally:深度<b class='flag-5'>學習</b>硬件趨勢](https://file1.elecfans.com/web2/M00/C1/D9/wKgaomXa-UyAZL77AABVuKdmkjg477.png)
評論