CauSeR: Causal Session-based Recommendations for Handling Popularity Bias

Abstract

Session-based RS(SRS) 에서 popularity bias를 해결하기 위해 Causal inference framework를 처음으로 시도한 논문
popularity bias를 L2Norm을 사용해서 해결하려고 시도했던 NISER의 저자가 작성한 논문
DL method가 data에 내재되어 있는 long-tail distribution을 더욱 증폭시킴 → popularity bias
item-user 의 interaction으로 부터 야기되는 conformity bias 또한 강화됨 (conformity bias : data generation 단계에서 발생하는 것으로, 사용자가 다른 사용자의 선호에 영향 받아서 본인의 진짜 선호 정도와 달리 선호도를 표시하는 것을 의미함)
이 2개의 bias를 완화하기 위해서 causal inference를 사용하겠다. ⇒ CauSeR 제안

3. Causer Approach

Untitled

S and I : session and item embedding
M : momentum of SGD optimizer
D : projection of S on head direction (mediator)
Y : outcome of recommendation (사용자가 아이템을 클릭할 것인지 아닌지)
R : relevance score of an item during a session based on user’s interest
training 과정에서..
- model 의 SGD optimizer 는 인기있는 아이템을 향해서 편향적인 학습을 함 ( M → S )
- 예측된 다음 아이템 확률은 D 를 통해 얻게 됨 ( M → D → Y )
- 그래서 M 은 S 와 Y의 공통된 원인 (cause) 이고 → confounder 의 역할을 함
data-generation 단계에서는..
- Y 에 대한 세션의 영향이 아이템으로 부터 오는 R(relevance) 뿐이었음 ( S → R → Y )
- 근데, training 과정에서 S → D → Y 로 가는 indirect effect 가 발생한 것임 ( 원래는 S → Y )
item embedding 의 경우에는 I → R , I → Y 로 가는 direct effect 가 있는데

이 중 I → Y 에서 relevance 와 관계없이 인기 있는 것이 더 많이 클릭되어 발생하는 conformity bias 가 있을 수 있음
Debiasing의 목표는!
- direct effect of S → Y
- direct effect of I → Y
를 동시에 모델링 하는 것이 목표

3.1 Training Procedure

$P(Y|do(S), I)$ : causal effect of S and I on Y
- $do(S)$ 를 통해 confounder M에서 뻗어나오는 화살표를 제거할 수 있음
Proposed Predictive Model

<aside> 💡

$P(Y|do(S), I) *(P(Y|I)^\beta) ~~~ where~\beta$ controls the amount of conformity bias (direct effect of I on Y)

</aside>

$$ \begin{aligned} P(Y|do(S), I) &=\Sigma_mP(Y|s, i_j, D(m, s))P(M=m)\\ &=\frac{1}{K}\Sigma_k^KP(Y|s^{(k)}, i_j^{(k)}, d^{(k)})\\ &=\frac{\tau}{K}\Sigma^{K}_{k=1}\frac{(i_j^{(k)})^T s^{(k)}}{||i_j^{(k)}||_2 ~||s^{(k)}||_2} \end{aligned} $$

$K$: multi-head → session 과 item embedding을 K개로 쪼개서 head를 여러 개 적용하는 느낌으로..
time step $t$ : sequence의 길이로 추정
$\tau$ : scaling factor

$$ ⁍ $$

j 번째 아이템을 linear를 태워서 normalize

$$ \begin{aligned} L&=L_R+\beta L_I\\ L_R&=-\Sigma_{j=1}^ny_jlog(\hat{y}{s, j})\\ L_I&=-\Sigma{j=1}^ny_jlog(\hat{y}{ j})\\ \hat{y}{s,j}&=softmax([Y|do(S=s), I=i_j])\\ \hat{y}_{j}&=softmax([Y|I=i_j])\\

\end{aligned} $$

학습되는 손실함수는 좌측의 식과 같은데,
둘 다 아이템 j일 확률을 구하는 것이 아니라 $y_j$의 경우에는 아이템의 분포를 학습하게 하는 것인가?

3.2 Inference

$$ \frac{\tau}{K}\Sigma^{K}_{k=1}(\frac{(i_j^{(k)})^T s^{(k)}}{||i_j^{(k)}||_2 ~||s^{(k)}||_2} -\alpha\frac{cos(s^{(k)}, \hat{d}^{(k)})\cdot (i_j^{(k)})^T\hat{d}^{(k)}}{||i_j^{(k)}||_2} ) $$

$d=\hat{d}cos(s, \hat{d})||s||, ~~~\hat{d}=\frac{\bar{s}}{||\bar{s}||},~~~\bar{s}=\mu\bar{s}_{t-1}+s_t$
모델을 훈련할 때는 intervened causal graph를 토대로 학습하여, $M\rarr S$ 와 $I\rarr Y$로의 직접적인 연결이 학습되었지만,
그래서, 좌측의 식과 같이 추론해야 함
우측 항의 $\alpha$ 뒤의 식이 $d$ 를 계산하는 식과 동일함
- $d$ 는 결국 현재 시점 이전의 세션들의 이동 평균들과 대상이 되는 세션 간의 유사도를 바탕으로 만들어지는 벡터
- 그러므로, 전체적인 세션의 트렌드를 반영하고, 이는 자연스럽게 popularity bias 된 벡터라고 볼 수 있음
- 이렇게 만들어진 $d$를 inference 시에 $\alpha$ 를 곱해서 예측 로짓에서 빼는 것이기 때문에
  
  → popularity에 대한 편향을 낮춰서 예측하려는 의도인 것으로 보임

4. Experimental Evaluation

Untitled

ARP : Average Recommendation Popularity 를 이용해서 popularity bias를 얼마나 완화하였는지 측정