科技公司的模型在探索與利用之間的權衡

Published in

twdsmeetup

10 min readApr 12, 2024

Shin-Min Hsu | Data Scientist | Author of 科技巨頭的演算法大揭秘

講者介紹

Shin-Min Hsu 台大學碩畢業，目前在資安公司擔任 Data Scientist，參與了2022 iThome 鐵人賽，隨後出版了【科技巨頭演算法大揭密】，本次主題會聚焦在科技巨頭 — Spotify 以及 Netflix 的推薦系統演算法，特別在於探索和利用之間的權衡。

本文將分成以下部分進行探討

Spotify 與 Netflix 的個人化首頁有一些共同的特徵如下

內容組織的方式相似 — 橫排是一個種類，裡面是內容，能夠左右滑動或者點進進入類別。

內容推薦都以新 + 舊的方式組合，舊的內容通常是互動過的內容，例如

內容提供都有提供解釋，例如

本文會先從新與舊開始聊聊探索與利用的權衡，並且說明為什麼會提供不同的推薦解釋。

Bandits 是 1 個常見的演算法，rescplanations 則是一個自創詞，recommendation 跟 explanations 的合併在一起的詞，以下介紹 Bandits 這個演算法

Bandits — 拉霸機

大家在玩拉霸機或是吃角子老虎機的時候，可以拉不同的手臂，並得到不同的獎勵，選擇要拉哪一個手臂時，可能會根據過去的經驗來決定，例如說拉這個比較容易得到獎勵，或者拉這隻臂都沒有得到獎勵，所以不拉它，因此每一次拉臂之前，可以參考過去的經驗，或者拉一個全新的臂。
拉霸機可以類比到推薦系統，Spotify 借用這個概念，來平衡所謂的探索和利用
探索 — 不會仰賴先前過去的經驗，隨機做出新的選擇
利用 — 根據過去經驗，每次按拉 C 這個臂，獲取的 reward 會最高，所以一直拉 C臂 — 參考我之前過去的經驗，然後選擇經驗最好的。

多臂餃子老虎機 — 預測，用戶可能會喜歡的音樂，例如最上面兩列，是筆者有聽過的音樂 / 節目，最下面則是，我沒有聽過我的歌單，但他預測我可能會喜歡。

評估算法好壞的方式則是需要設計不同的指標來衡量推薦清單的表現， Spotify 設計的衡量指標如下：

familarity — 對於特定使用者，歌單內的歌曲播放越多次，對於該歌曲越熟悉， familarity 能夠被計算在歌曲、歌單、藝術家、podcast 單集等物品上

discovery — 如果特定使用者，半年內都沒有播放過這首歌，而最近有主動 / 被動點擊，就可判定為 discovery ，同樣夠被計算在歌曲、歌單、藝術家、podcast 單集等物品上

similarity — 該指標比較直觀，就是對於特定的歌曲，與使用者過往聽過歌曲的相似度為何

Spotify 就是利用這三個指標來去衡量算出來的歌單，那麼，要如何平衡所謂的探索跟利用呢？

他們使用的是 Epsilon Greedy ，這裡不會展開太多數學或是深入的理論，high level 的概念來看，其實就是設定 Epsilon 的機率值，例如 0.3，那麼每次就有 0.3 的機會利用， 0.7 的機率探索用，所以每次進入首頁時， Spotify 就跑做一次探索/利用。

到此，大家可能會想說，那為什麼我們不能就直接都用利用就好了，利用的原因 — 因為可以百分之百確定，用戶一定會喜歡的嘛。因為他都已經曾經播過了，而且他可能 familiarity 很高，因為使用者很熟悉，為什麼還要冒著風險，作「探索」呢？

因為 Spotify 它在建模型的時候，有做一些使用者的研究，然後他們有發現，使用者在使用 Spotify 的時候，除了一直聽自己曾經喜歡過的音樂，也會希望，或是預期 Spotify 可以推薦一些，他們從來沒有聽過，但他們可能會喜歡的音樂。這和講者本人聽到身邊朋友使用 Spotify 的原因也蠻接近的，所以有提供探索這個功能的話，那的確是會提高使用者對 Spotify 的偏好。
Spotify 的分析也指出，如果使用者被推薦了一首新的歌，然後他如果不喜歡的話，其實對 Spotify 不是負面的評價，只是個中性的訊號，概念上就是使用者不喜歡，並且跳過歌曲，對 Spotify 來說，反而是個正面的事情，因為它就是可以更知道用戶喜歡什麼樣的歌，然後可以再更打造用戶會喜歡的模型。