第3章 内容ベース推薦システム~モデルベース方式~

View the Project on GitHub

Home

第3章 内容ベース推薦システム~モデルベース方式~

表3.aはクレープデータベースとBruno(\(u = 2\))の評価履歴である。各行はアイテム\(i\)に関するデータを表す。\(x_{i,k} \in \{0, 1\}\)はアイテム\(i\)の属性\(k\)の特徴量を表す。\(x_{i,k} = 1\)のときアイテム\(i\)は属性\(k\)をもち、\(x_{i,k} = 0\)のときアイテム\(i\)は属性\(k\)をもたないことを表す。アイテム\(i\)の特徴ベクトルは\(\boldsymbol{x}_{i} = [x_{i,1}, x_{i,2}, \ldots, x_{i,6}]^{\mathsf{T}}\)と表す。\(r_{2,i} \in \{-1, +1\}\)はBrunoのアイテム\(i\)に対する評価値を表す。ただし、\(r_{2,i}\)が\(?\)となっているアイテムは未評価であることを表す。ここで、\(r_{2,i}\)が与えられている事例集合をBrunoの訓練データ\(D_{2}^{L}\)とし、未評価である事例集合をBruno向けの予測対象データ\(D_{2}^{U}\)とする。このとき、次の問いに答えなさい。

表3.a クレープデータベースとBrunoの評価履歴

アイテムID \(i\) アイテム名 いちご\(x_{i,1}\) ラズベリー\(x_{i,2}\) バナナ\(x_{i,3}\) チョコ\(x_{i,4}\) ホイップ\(x_{i,5}\) カスタード\(x_{i,6}\) 評価値\(r_{2,i}\)
1 いちごクレープ 1 0 0 0 1 0 ?
2 ラズベリークレープ 0 1 0 0 1 0 ?
3 ダブルベリークレープ 1 1 0 0 1 0 ?
4 いちごチョコクレープ 1 0 0 1 1 0 -1
5 いちごカスタード 1 0 0 0 0 1 -1
6 ラズベリーチョコカスタード 0 1 0 1 0 1 +1
7 バナナクレープ 0 0 1 0 1 0 ?
8 チョコバナナクレープ 0 0 1 1 1 0 +1
9 ラズベリーダブルクリーム 0 1 0 0 1 1 -1
10 バナナカスタード 0 0 1 0 0 1 ?
11 ダブルベリーチョコクレープ 1 1 0 1 1 0 ?
12 バナナダブルクリーム 0 0 1 0 1 1 ?
13 ラズベリーチョコバナナクレープ 0 1 1 1 1 0 +1

1. ルールベース分類器

Brunoの訓練データおよび予測対象データを集合で表現すると、それぞれ表3.b表3.cのとおりとなる。このとき、次の問いに答えなさい。

表3.b 集合表現によるBrunoの訓練データ

\(i\) \(X_{i}\) \(r_{2,i}\)
4 {いちご, チョコ, ホイップ} -1
5 {いちご, カスタード} -1
6 {ラズベリー, チョコ, カスタード} +1
8 {バナナ, チョコ, ホイップ} +1
9 {ラズベリー, ホイップ, カスタード} -1
13 {ラズベリー, バナナ, チョコ, ホイップ} +1

表3.c 集合表現によるBrunoの予測対象データ

\(i\) \(X_{i}\) \(r_{2,i}\)
1 {いちご, ホイップ} ?
2 {ラズベリー, ホイップ} ?
3 {いちご, ラズベリー, ホイップ} ?
7 {バナナ, ホイップ} ?
10 {バナナ, カスタード} ?
11 {いちご, ラズベリー, チョコ, ホイップ} ?
12 {バナナ, ホイップ, カスタード} ?

演習問題1

次の各ルールの出現頻度を求めなさい。

(1) ルール\(\{\text{チョコ}\} \Rightarrow r = +1\)

(2) ルール\(\{\text{チョコ}, \text{ホイップ}, \text{バナナ}\} \Rightarrow r = +1\)

(3) ルール\(\{\text{いちご}, \text{チョコ}\} \Rightarrow r = -1\)

演習問題2

次の各ルールの支持度を求めなさい。

(1) ルール\(\{\text{チョコ}\} \Rightarrow r = +1\)

(2) ルール\(\{\text{チョコ}, \text{ホイップ}, \text{バナナ}\} \Rightarrow r = +1\)

(3) ルール\(\{\text{いちご}, \text{チョコ}\} \Rightarrow r = -1\)

演習問題3

最小支持度を\(\mathit{minsup} = 0.2\)とするとき、頻出ルールをすべて挙げなさい。

演習問題4

次の各ルールの確信度を求めなさい。

(1) ルール\(\{\text{チョコ}\} \Rightarrow r = +1\)

(2) ルール\(\{\text{チョコ}, \text{ホイップ}, \text{バナナ}\} \Rightarrow r = +1\)

(3) ルール\(\{\text{ホイップ}\} \Rightarrow r = -1\)

演習問題5

最小支持度を\(\mathit{minsup} = 0.2\)、最小確信度を\(\mathit{minconf} = 0.6\)とするとき、相関ルールをすべて挙げなさい。

演習問題6

次の各アイテムのスコアを求めなさい。ただし、確信度による重みは考慮しない。

(1) アイテム1

(2) アイテム3

(3) アイテム11

2. 単純ベイズ分類器

演習問題7

事前確率として、Brunoが好む確率および嫌う確率をそれぞれ求めなさい。ただし、ラプラススムージングは適用しない。答は分数のままでよい。

演習問題8

表3.dは単純ベイズ分類器によるBrunoのユーザプロファイルである。属性ごとの条件付き確率を求め、表3.dのユーザプロファイルを完成させなさい。ただし、ラプラススムージングは適用しない。各確率は分数のままでよい。

表3.d 単純ベイズ分類器によるBrunoのユーザプロファイル(ラプラススムージング適用なし)

  事前確率 いちご   ラズベリー   バナナ   チョコ   ホイップ   カスタード  
    なし あり なし あり なし あり なし あり なし あり なし あり
好き 演習問題7 (1) (2) 1/3 2/3 1/3 2/3 (5) (6) 1/3 2/3 2/3 1/3
嫌い 演習問題7 (3) (4) 2/3 1/3 3/3 0/3 (7) (8) 1/3 2/3 1/3 2/3

演習問題9

次の各アイテムの好む確率および嫌う確率をそれぞれ求めなさい。ただし、ラプラススムージングは適用しない。

(1) アイテム1

(2) アイテム7

(3) アイテム12

演習問題10

ラプラススムージングを適用したとき、事前確率として、Brunoが好む確率および嫌う確率をそれぞれ求めなさい。ただし、スムージングパラメタは\(\alpha = 1\)とする。また、答は分数のままでよい。

演習問題11

表3.eはラプラススムージングを適用した単純ベイズ分類器によるBrunoのユーザプロファイルである。ラプラススムージングを適用したとき、属性ごとの条件付き確率を求め、表3.eのユーザプロファイルを完成させなさい。ただし、スムージングパラメタは\(\alpha = 1\)とする。また、各確率は分数のままでよい。

表3.e 単純ベイズ分類器によるBrunoのユーザプロファイル(ラプラススムージング適用あり)

  事前確率 いちご   ラズベリー   バナナ   チョコ   ホイップ   カスタード  
    なし あり なし あり なし あり なし あり なし あり なし あり
好き 演習問題7 (1) (2) 2/5 3/5 2/5 3/5 (5) (6) 2/5 3/5 3/5 2/5
嫌い 演習問題7 (3) (4) 3/5 2/5 4/5 1/5 (7) (8) 2/5 3/5 2/5 3/5

演習問題12

ラプラススムージングを適用したとき、次の各アイテムの好む確率および嫌う確率をそれぞれ求めなさい。ただし、スムージングパラメタは\(\alpha = 1\)とする。

(1) アイテム1

(2) アイテム7

(3) アイテム12

演習問題13

ラプラススムージングを適用したとき、次の各アイテムのスコアを求めなさい。ただし、スムージングパラメタは\(\alpha = 1\)とする。

(1) アイテム1

(2) アイテム7

(3) アイテム12

3. 決定木

演習問題14

Brunoの訓練データ\(D_{2}^{L}\)のジニ係数\(G(D_{2}^{L})\)を求めなさい。

演習問題15

Brunoの訓練データ\(D_{2}^{L}\)を、「チョコなし」(\(x_{i,4} = 0\))の事例集合\(D_{2}^{L0}\)と、「チョコあり」(\(x_{i,4} = 1\))の事例集合\(D_{2}^{L1}\)に分割したとする。このとき、それぞれのジニ係数\(G(D_{2}^{L0})\)、\(G(D_{2}^{L1})\)を求めなさい。

演習問題16

Brunoの訓練データ\(D_{2}^{L}\)を、それぞれ次の基準で分割したとき、その分割のよさをジニ係数の加重平均により求めなさい。

(1) 「チョコなし」(\(x_{i,4} = 0\))の事例集合\(D_{2}^{L0}\)と、「チョコあり」(\(x_{i,4} = 1\))の事例集合\(D_{2}^{L1}\)

(2) 「ラズベリーなし」(\(x_{i,2} = 0\))の事例集合\(D_{2}^{L0}\)と、「ラズベリーあり」(\(x_{i,2} = 1\))の事例集合\(D_{2}^{L1}\)

(3) 「ホイップなし」(\(x_{i,5} = 0\))の事例集合\(D_{2}^{L0}\)と、「ホイップあり」(\(x_{i,5} = 1\))の事例集合\(D_{2}^{L1}\)

演習問題17

レベル0の選択基準として適切な属性をすべて挙げなさい。

演習問題18

レベル0の選択基準として「チョコ」を選定したとする。ここで、「チョコあり」(\(x_{i,4} = 1\))の事例集合\(D_{2}^{L1}\)には、まだ「好き」と「嫌い」の事例が混在しているため、さらにレベル1の選択基準を選定したい。このとき、レベル1の選択基準として適切な属性を挙げなさい。

演習問題19

Brunoのユーザプロファイルとして図3.aの決定木が構成されたとする。このとき、次の各アイテムのスコアを求めなさい。

fig3a

図3.a Brunoのユーザプロファイル

(1) アイテム1

(2) アイテム7

(3) アイテム11