美國資料領域Q&A

Szu-Min Yu
Jul 6, 2021

--

這篇文章記載我和時代基金會實習生們討論在美求學與求職相關經驗以及美國資料科學領域工作的現況,會以QA形式記錄實習生們提問的問題與我的回答。

提供一下脈絡,我大學時是就讀台大政治系雙主修法律系,以及輔系婦女及性別研究學程。研究所於NYU讀量化碩士班,畢業後從事資料科學相關的工作,目前在CVS Health擔任資料科學家。大學時修習相關課程應該只有統計跟社會科學研究方法吧哈哈,如果我可以從事資料行業,你也可以!

Source: https://unsplash.com/photos/VMPhyAoVqqk

赴美進修經歷

Q. 學姐的學士學位為政治與法律,而碩士學位選擇了Applied Stats (Applied Quantitative Research),想請問學姐進行跨領域的契機為何?過程中是否有遇到什麼困難?

A. 原先出國動機是要讀社會學、性別研究領域的博士班。大五上時申請了美國社會所博士班,但是都沒有拿到offer,而正好NYU社會所下量化碩士班仍然開放申請所以我便申請了。當初想著即便沒有上博班,還是決定來念量化碩班當作跳板,可以邊讀邊申請博士。

轉換領域我認為困難的部分偏向數學的部分,畢竟我在政治系與法律系中並沒有受到什麼進階計量訓練,當初也沒有想到自己會從事這個行業⋯⋯(當初可是想要當律師呢)。可以的話在台灣就先預/複習基本微積分、線代之類,也可以在coursera上課或是自己看書。

Q. 當初是因為甚麼樣的契機決定繼續攻讀碩士,而非進入職場呢 ?

A. 因為當初是想要讀博班,但是念了碩班以後覺得自己並不是對學術那麼有熱忱,所以後來決定要轉向業界工作。

Q. 想詢問當時學姐為何選擇到美國攻讀碩士,而非其他國家?

A. 當初想要念性別與社會學相關的學系,所以美國的學術資源與研究動能是很大的考量 ,而我也有很喜歡與欣賞的教授,剛好是在NYU作研究,那位教授後來也成為我的碩論指導老師,不過這又有另外一個故事了。此外,我也有申請英國的性別碩士保底的,但我覺得比起英國我好像比較喜歡美國,所以有些有上了也沒去,而且英國碩士之後要投美國博班也沒有很大的優勢,相比於美國的碩班會比較有幫助。

Source: https://unsplash.com/photos/mcSDtbWXUZU

資料科學相關

Q. 想請問學姐身為資料科學家,平時工作的業務內容都包含些什麼呢?數據分析師和資料科學家的差別主要在哪?

A. 據我的觀察,資料相關領域有大概下列幾種,我分類的方向主要是工作內容或是使用工具的不同,但這些之間都有或多或少的重疊,每個公司或是不同組之間的差異也可能很大。

  • Data/Business/Product Analyst: 數據分析如Exploratory Data Analysis、視覺化、dashboard等,工具Excel以及 SQL為主。舉例來說,科技公司如Facebook與Google會有不同的feature,也就是公司的產品,像是Newsfeed,或是Google Map等,就會針對這些產品去做數據分析,看使用者的參與程度,或是conversion rate等,主要是建立dashboard追蹤與分析產品數據。這只是個例子,不同公司會做不同的事。
  • Data Scientist, Analytics or Experiment:有很大一部分也是在做數據分析,但是也有很大一部分在跑機器學習與統計模型,有些也會負責實驗設計及因果推論。主要工具python, R, SQL, Hadoop, Spark等,看公司環境與設定。
  • Machine Learning Engineer/ Data Scientist, Algorithm:這類的資料科學家主要是數學推導、建立機器學習模型、演算法等,數學要很強,像我就不會XD。
  • Data Engineer:就是軟體工程師,但是工作內容主要偏重在data infra、建立ETL pipeline,productionalize ML model等等。

Q. 如果希望未來可以從事資料科學的領域,在大學可以做甚麼樣的準備或是學習呢 ?

A. 這個問題也回到了上面那題,主要還是看你未來想要從事的資料工作。

如果想要做模型或是實驗,可以加強下列幾門科目:

  • 微積分、線性代數
  • 統計、計量
  • 機率
  • 因果推論

如果是對於商業或數據分析有興趣,則可以專注在統計、計量,以及SQL。此外,加強產業知識與溝通、跨團隊合作能力也是相當重要的。

Q.商管類學生在數據分析領域,面對工科生、數學專業的學生要如何具備一定競爭力?數據分析師的發展前景如何?

A. 一樣,要看你想要從事哪個方向,準備起來會不同。以商管領域而言的話,Business Analyst主要是將數據轉化成商業上的策略方向,產業背景知識也是在決策上不可或缺的要素,比起理工科系的學生,商管學生也有更多溝通、領導以及團隊合作的訓練,在執行專案與呈現資料的方面上會有優勢。

至於發展前景,我認為就業市場的熱度還是非常搶手的,尤其台灣開始也注重數據分析領域,如果對這塊有興趣的話,是可以考慮嘗試的!

Q. 想請問學姊,在您的工作經歷中,有沒有發現具有甚麼樣特質的人,比較適合從事資料科學 ? 又或是說依您的經驗,應該如何確定自己是否適合這個領域呢 ?

A. 一樣,要看你想從事什麼方向的資料工作。就我工作上來說,每天都在寫code,不管是寫python或是SQL,所以要對coding不會太排斥,不然會感到相當厭煩。

另外一點就是要善於溝通,試著把數據講的讓一般人也聽得懂,這點很重要,因為所有資料相關的組都得與其他組如行銷、產品、設計合作,要如何溝通數據上的發現以及讓對方信服是相當重要的技能。

Q. 資料科學的職涯發展,求職過程往往需要滿多的side project或是專案做為求職依據,想請問學姐是否有做過什麼有趣的專案呢?

A. 我覺得比起side project,最好可以找實習,因為在實習過程中就會做專案,也對找正職幫助很大。如果真的沒實習,自己玩一些專案也很好,建議找和自己興趣相關的來做分析,像是社會科學背景,可以找該領域的資料,搭配上自己學過的分析研究方法,或是理論背景,會提升整個專案與研究完整度。

另外一個要注意的地方是可以嘗試做和商業考量切合的專案,試著用公司營運與提升利潤的角度來分析數據、提供策略,以及如何利用現有資料提升利潤、engagment rate、conversion rate等不同衡量的方式,讓自己更熟悉業界思維。例如對科技公司有興趣的話,可以找類似的toy data來分析,試著去了解他們的產品與所想要達成的KPI等,讓自己更熟悉該公司業務,也可以大約猜到該職位之後可能會做的案子。

此外,也建議和該公司資料從業人員聊一聊,看他們平常在做什麼專案,以及處理怎樣的資料,都會是很好的學習。

Q. 資料科學的領域範疇很廣,目前在學校修習課程也有遇到不知道可以朝向哪個子領域發展的情況,想詢問學姐當時如何決定研究領域?

A. 像我上面說的,資料領域有很多不同方向,做analytics, experiment, algo, deep learning都會很不同,也要看自己興趣是什麼。子領域雖然都是在資料科學下面,但是卻也有可能隔行如隔山,會越做越上手與專精。

像我的話我就是做analytics跟experiment,其中實驗的部分跟社會科學更緊密相關,所以也較容易切入這個領域。

Q. 資料科學和coding密切相關,想詢問學姐針對程式語言,平時工作最常接觸的語言有哪些?哪些程式語言是目前業界必備的?

SQL, Python or R

我認為目前最必備的SQL 跟 Python吧,Python and R強項不同,也要看用途以及公司與團隊的需求。Python是目前最被廣泛利用,後端也可用python,productionalize model很方便。

R的話則是有很多統計相關的資源,如果做相關專案或是領域會很方便。我自己第一個語言也是R,後來才學Python。

以上希望有所幫助,有問題歡迎留言!:)

--

--

Szu-Min Yu

Senior Data Scientist at CVS Health Aetna. Taiwanese, Feminist, Activist, Queer. Love to sing karaoke, dance, and travel. @szumin.art Linkedin: szuminyu