
S and I : session and item embedding
M : momentum of SGD optimizer
D : projection of S on head direction (mediator)
Y : outcome of recommendation (사용자가 아이템을 클릭할 것인지 아닌지)
R : relevance score of an item during a session based on user’s interest
training 과정에서..
data-generation 단계에서는..
item embedding 의 경우에는 I → R , I → Y 로 가는 direct effect 가 있는데
이 중 I → Y 에서 relevance 와 관계없이 인기 있는 것이 더 많이 클릭되어 발생하는 conformity bias 가 있을 수 있음
Debiasing의 목표는!
를 동시에 모델링 하는 것이 목표
$P(Y|do(S), I)$ : causal effect of S and I on Y
Proposed Predictive Model
<aside> 💡
$P(Y|do(S), I) *(P(Y|I)^\beta) ~~~ where~\beta$ controls the amount of conformity bias (direct effect of I on Y)
</aside>
$$ \begin{aligned} P(Y|do(S), I) &=\Sigma_mP(Y|s, i_j, D(m, s))P(M=m)\\ &=\frac{1}{K}\Sigma_k^KP(Y|s^{(k)}, i_j^{(k)}, d^{(k)})\\ &=\frac{\tau}{K}\Sigma^{K}_{k=1}\frac{(i_j^{(k)})^T s^{(k)}}{||i_j^{(k)}||_2 ~||s^{(k)}||_2} \end{aligned} $$
$$ ⁍ $$
$$ \begin{aligned} L&=L_R+\beta L_I\\ L_R&=-\Sigma_{j=1}^ny_jlog(\hat{y}{s, j})\\ L_I&=-\Sigma{j=1}^ny_jlog(\hat{y}{ j})\\ \hat{y}{s,j}&=softmax([Y|do(S=s), I=i_j])\\ \hat{y}_{j}&=softmax([Y|I=i_j])\\
\end{aligned} $$
$$ \frac{\tau}{K}\Sigma^{K}_{k=1}(\frac{(i_j^{(k)})^T s^{(k)}}{||i_j^{(k)}||_2 ~||s^{(k)}||_2} -\alpha\frac{cos(s^{(k)}, \hat{d}^{(k)})\cdot (i_j^{(k)})^T\hat{d}^{(k)}}{||i_j^{(k)}||_2} ) $$
$d=\hat{d}cos(s, \hat{d})||s||, ~\hat{d}=\frac{\bar{s}}{||\bar{s}||},~\bar{s}=\mu\bar{s}_{t-1}+s_t$
모델을 훈련할 때는 intervened causal graph를 토대로 학습하여, $M\rarr S$ 와 $I\rarr Y$로의 직접적인 연결이 학습되었지만,
그래서, 좌측의 식과 같이 추론해야 함
우측 항의 $\alpha$ 뒤의 식이 $d$ 를 계산하는 식과 동일함
$d$ 는 결국 현재 시점 이전의 세션들의 이동 평균들과 대상이 되는 세션 간의 유사도를 바탕으로 만들어지는 벡터
그러므로, 전체적인 세션의 트렌드를 반영하고, 이는 자연스럽게 popularity bias 된 벡터라고 볼 수 있음
이렇게 만들어진 $d$를 inference 시에 $\alpha$ 를 곱해서 예측 로짓에서 빼는 것이기 때문에
→ popularity에 대한 편향을 낮춰서 예측하려는 의도인 것으로 보임
