表3.aはクレープデータベースとBruno(\(u = 2\))の評価履歴である。各行はアイテム\(i\)に関するデータを表す。\(x_{i,k} \in \{0, 1\}\)はアイテム\(i\)の属性\(k\)の特徴量を表す。\(x_{i,k} = 1\)のときアイテム\(i\)は属性\(k\)をもち、\(x_{i,k} = 0\)のときアイテム\(i\)は属性\(k\)をもたないことを表す。アイテム\(i\)の特徴ベクトルは\(\boldsymbol{x}_{i} = [x_{i,1}, x_{i,2}, \ldots, x_{i,6}]^{\mathsf{T}}\)と表す。\(r_{2,i} \in \{-1, +1\}\)はBrunoのアイテム\(i\)に対する評価値を表す。ただし、\(r_{2,i}\)が\(?\)となっているアイテムは未評価であることを表す。ここで、\(r_{2,i}\)が与えられている事例集合をBrunoの訓練データ\(D_{2}^{L}\)とし、未評価である事例集合をBruno向けの予測対象データ\(D_{2}^{U}\)とする。このとき、次の問いに答えなさい。
表3.a クレープデータベースとBrunoの評価履歴
アイテムID \(i\) | アイテム名 | いちご\(x_{i,1}\) | ラズベリー\(x_{i,2}\) | バナナ\(x_{i,3}\) | チョコ\(x_{i,4}\) | ホイップ\(x_{i,5}\) | カスタード\(x_{i,6}\) | 評価値\(r_{2,i}\) |
---|---|---|---|---|---|---|---|---|
1 | いちごクレープ | 1 | 0 | 0 | 0 | 1 | 0 | ? |
2 | ラズベリークレープ | 0 | 1 | 0 | 0 | 1 | 0 | ? |
3 | ダブルベリークレープ | 1 | 1 | 0 | 0 | 1 | 0 | ? |
4 | いちごチョコクレープ | 1 | 0 | 0 | 1 | 1 | 0 | -1 |
5 | いちごカスタード | 1 | 0 | 0 | 0 | 0 | 1 | -1 |
6 | ラズベリーチョコカスタード | 0 | 1 | 0 | 1 | 0 | 1 | +1 |
7 | バナナクレープ | 0 | 0 | 1 | 0 | 1 | 0 | ? |
8 | チョコバナナクレープ | 0 | 0 | 1 | 1 | 1 | 0 | +1 |
9 | ラズベリーダブルクリーム | 0 | 1 | 0 | 0 | 1 | 1 | -1 |
10 | バナナカスタード | 0 | 0 | 1 | 0 | 0 | 1 | ? |
11 | ダブルベリーチョコクレープ | 1 | 1 | 0 | 1 | 1 | 0 | ? |
12 | バナナダブルクリーム | 0 | 0 | 1 | 0 | 1 | 1 | ? |
13 | ラズベリーチョコバナナクレープ | 0 | 1 | 1 | 1 | 1 | 0 | +1 |
Brunoの訓練データおよび予測対象データを集合で表現すると、それぞれ表3.b、表3.cのとおりとなる。このとき、次の問いに答えなさい。
表3.b 集合表現によるBrunoの訓練データ
\(i\) | \(X_{i}\) | \(r_{2,i}\) |
---|---|---|
4 | {いちご, チョコ, ホイップ} | -1 |
5 | {いちご, カスタード} | -1 |
6 | {ラズベリー, チョコ, カスタード} | +1 |
8 | {バナナ, チョコ, ホイップ} | +1 |
9 | {ラズベリー, ホイップ, カスタード} | -1 |
13 | {ラズベリー, バナナ, チョコ, ホイップ} | +1 |
表3.c 集合表現によるBrunoの予測対象データ
\(i\) | \(X_{i}\) | \(r_{2,i}\) |
---|---|---|
1 | {いちご, ホイップ} | ? |
2 | {ラズベリー, ホイップ} | ? |
3 | {いちご, ラズベリー, ホイップ} | ? |
7 | {バナナ, ホイップ} | ? |
10 | {バナナ, カスタード} | ? |
11 | {いちご, ラズベリー, チョコ, ホイップ} | ? |
12 | {バナナ, ホイップ, カスタード} | ? |
次の各ルールの出現頻度を求めなさい。
次の各ルールの支持度を求めなさい。
最小支持度を\(\mathit{minsup} = 0.2\)とするとき、頻出ルールをすべて挙げなさい。
次の各ルールの確信度を求めなさい。
最小支持度を\(\mathit{minsup} = 0.2\)、最小確信度を\(\mathit{minconf} = 0.6\)とするとき、相関ルールをすべて挙げなさい。
次の各アイテムのスコアを求めなさい。ただし、確信度による重みは考慮しない。
事前確率として、Brunoが好む確率および嫌う確率をそれぞれ求めなさい。ただし、ラプラススムージングは適用しない。答は分数のままでよい。
表3.dは単純ベイズ分類器によるBrunoのユーザプロファイルである。属性ごとの条件付き確率を求め、表3.dのユーザプロファイルを完成させなさい。ただし、ラプラススムージングは適用しない。各確率は分数のままでよい。
表3.d 単純ベイズ分類器によるBrunoのユーザプロファイル(ラプラススムージング適用なし)
事前確率 | いちご | ラズベリー | バナナ | チョコ | ホイップ | カスタード | |||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
なし | あり | なし | あり | なし | あり | なし | あり | なし | あり | なし | あり | ||
好き | 演習問題7 | (1) | (2) | 1/3 | 2/3 | 1/3 | 2/3 | (5) | (6) | 1/3 | 2/3 | 2/3 | 1/3 |
嫌い | 演習問題7 | (3) | (4) | 2/3 | 1/3 | 3/3 | 0/3 | (7) | (8) | 1/3 | 2/3 | 1/3 | 2/3 |
次の各アイテムの好む確率および嫌う確率をそれぞれ求めなさい。ただし、ラプラススムージングは適用しない。
ラプラススムージングを適用したとき、事前確率として、Brunoが好む確率および嫌う確率をそれぞれ求めなさい。ただし、スムージングパラメタは\(\alpha = 1\)とする。また、答は分数のままでよい。
表3.eはラプラススムージングを適用した単純ベイズ分類器によるBrunoのユーザプロファイルである。ラプラススムージングを適用したとき、属性ごとの条件付き確率を求め、表3.eのユーザプロファイルを完成させなさい。ただし、スムージングパラメタは\(\alpha = 1\)とする。また、各確率は分数のままでよい。
表3.e 単純ベイズ分類器によるBrunoのユーザプロファイル(ラプラススムージング適用あり)
事前確率 | いちご | ラズベリー | バナナ | チョコ | ホイップ | カスタード | |||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
なし | あり | なし | あり | なし | あり | なし | あり | なし | あり | なし | あり | ||
好き | 演習問題7 | (1) | (2) | 2/5 | 3/5 | 2/5 | 3/5 | (5) | (6) | 2/5 | 3/5 | 3/5 | 2/5 |
嫌い | 演習問題7 | (3) | (4) | 3/5 | 2/5 | 4/5 | 1/5 | (7) | (8) | 2/5 | 3/5 | 2/5 | 3/5 |
ラプラススムージングを適用したとき、次の各アイテムの好む確率および嫌う確率をそれぞれ求めなさい。ただし、スムージングパラメタは\(\alpha = 1\)とする。
ラプラススムージングを適用したとき、次の各アイテムのスコアを求めなさい。ただし、スムージングパラメタは\(\alpha = 1\)とする。
Brunoの訓練データ\(D_{2}^{L}\)のジニ係数\(G(D_{2}^{L})\)を求めなさい。
Brunoの訓練データ\(D_{2}^{L}\)を、「チョコなし」(\(x_{i,4} = 0\))の事例集合\(D_{2}^{L0}\)と、「チョコあり」(\(x_{i,4} = 1\))の事例集合\(D_{2}^{L1}\)に分割したとする。このとき、それぞれのジニ係数\(G(D_{2}^{L0})\)、\(G(D_{2}^{L1})\)を求めなさい。
Brunoの訓練データ\(D_{2}^{L}\)を、それぞれ次の基準で分割したとき、その分割のよさをジニ係数の加重平均により求めなさい。
レベル0の選択基準として適切な属性をすべて挙げなさい。
レベル0の選択基準として「チョコ」を選定したとする。ここで、「チョコあり」(\(x_{i,4} = 1\))の事例集合\(D_{2}^{L1}\)には、まだ「好き」と「嫌い」の事例が混在しているため、さらにレベル1の選択基準を選定したい。このとき、レベル1の選択基準として適切な属性を挙げなさい。
Brunoのユーザプロファイルとして図3.aの決定木が構成されたとする。このとき、次の各アイテムのスコアを求めなさい。
図3.a Brunoのユーザプロファイル