數據科學家 不應在「發現」中糾纏

(文章於2018年5月3日在香港經濟日報刊登)

Data Scientist

「數據科學家」已由十年前的冷門職業,變成炙手可熱的「筍工」,連續兩年登上美國 Glassdoor 理想職業排行榜首位。

以往靠直覺和經驗做決定的金融、物流、銷售企業,逐漸倚仗數據科學家,將數據轉化為洞見。IDC「全球大數據及分析開支指南」指,全球大數據與企業分析營業額,將由 2016 年 1,300 億美元增至 2020 年 2,030 億美元,亞太是主要區域之一。

大部分機構聘請數據科學家,為建立演算法及機器學習模型,但 CrowdFlower 報告指,大部分企業存在「80/20 定律」──數據科學家八成工作時間用於尋找、清理及組織數據,只有兩成時間用於數據分析。

現存工具能協助數據科學家把工序自動化,加上智能搜尋功能,將發現、策展和管治數據的工序,變得輕鬆簡單。有效的技術支援,讓他們可採取更進取的工作模式:同步創建及訓練多個數據模型,而非盯著單一模型。同步模型攤薄個別項目風險,鼓勵他們嘗試高回報的實驗項目,不用擔心單一項目失敗蒙受損失。

策略以雲端技術為基礎,讓數據科學家輕鬆儲存、讀取、延伸數據模型,使用現存事物作為新項目藍本,進行「學習轉移」── 毋需每次由零開始,解決每個問題得到的新知識都加以保存,預備下次應用於解決相關問題。

打破「80/20 定律」的技術突破已出現。適當的工具,讓數據科學家不用再在發現、清理數據上糾纏,專注於高增值的模型創建、數據分析工作,幫機構提升競爭力。

DSC_3915_1

IBM Cloud & Watson 業務部門主管李永財

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s