読者です 読者をやめる 読者になる 読者になる

pixiv のタグ情報を用いた「ラブライブ! School idol project」のカップリングネットワークの構築

はじめに

ネットワーク解析やグラフアルゴリズムの研究者がアルゴリズムを実装した際,動作確認のために最初に実行する toy example をどうするかというのは意外と悩ましい.パスグラフやグリッドグラフのような高い対称性を持つグラフや小さすぎるグラフではいまいち動作に確証が持てない.一方,公開されている実データは最も小規模な Karate Club や Dolphin Social Network 等でも目視には大きすぎる.調度良いサイズの,ある程度非自明な形をしており,アルゴリズムによる出力の意味の解釈がある程度可能であり,できれば愛着が持てるグラフデータが必要とされている.

そこで,本研究ではそのような用途に適切なグラフデータとして,「ラブライブ! School idol project」のキャラクター間のグラフを構築する.データの構築には,pixiv に投稿されている二次創作作品のタグの情報を用いる.

データの取り方

pixiv API を叩き「にこまき」「りんぱな」といったようなタグに関する情報を用いてキャラクター間の関係(の人気)を推定する.値としては,そのタグを含む作品の観覧数の和を用いる.カタカナへの表記揺れは加味.

順番を加味しない場合

つまり,「にこまき」と「まきにこ」を同一視する場合.

行列

f:id:iwiwi:20140627235759p:plain

↑まずは 9 人.「にこまき」の人気が桁違いであることが定量的に示された.


f:id:iwiwi:20140628000031p:plain

↑A-RISE と妹2人を入れた 14 人版.「ありうみ」「ツバほの」がメインキャラ同士に匹敵する人気を誇ることが分かる.あと,意外にも「ツバゆき」なんていうマニアックそうなペアに非 0 の値が入っていることがわかる.

グラフ

私の事情により重み無しグラフが欲しいので重みなしグラフをこの行列より作る.単純にしきい値を指定しそれ未満の辺をミトメラレナイワァとする.


f:id:iwiwi:20140628001246p:plain

↑まず,観覧数 1,000,000 未満のペアがミトメラレナイ場合.生徒会グループとそれ以外(広義の1年生)に完全に別れた.広義の一年生側は完全にパスになってしまった,まるであまり仲が良くないかのようである.


f:id:iwiwi:20140628001541p:plain

↑次に,観覧数 100,000 未満のペアがミトメラレナイ場合.ツバサとイモーチカも登場.真姫の次数が高い.

おまけ:クラスタリング

関連度の行列をそのまま Affinity Propagation(公式実装)に放り込んでクラスタリングしてみた.Preference はデフォルトの median を使用.

f:id:iwiwi:20140628000607p:plain

↑完ッ全にフルハウス!!

順番を加味する場合

女性キャラクター同士の場合はカップリングを呼ぶ際の順番は重要ではないという主張が主流ではあるものの,有向グラフも欲しいし,試しに順番も加味してみることにした.即ち,「にこまき」と「まきにこ」を別扱いする.

行列

f:id:iwiwi:20140628002259p:plain

↑各セルは「行+列」の順のタグでのスコアを表す.意外と両方の順番で観測されるペアというのが結構ある.もっとも,両方の順番でタグが付加されている作品が一定数ある.

グラフ

f:id:iwiwi:20140628002534p:plain:w250

閾値 1,000,000 の場合.


f:id:iwiwi:20140628002604p:plain:w150

閾値 300,000 の場合


f:id:iwiwi:20140628002652p:plain:w350

閾値 100,000 の場合


どの図でも見て取れることとして,予想以上にペアの順番が規則的である様子.大部分の辺が上から下向きになっている.例えば,ことりやほのかは前側に入りやすく,真姫は後ろ側に入りやすいようだ.


R-18 作品に限定した場合

R-18 作品に限定した場合に結果がどう変化するかを調べてみてはどうかという興味深いアイディアを貰ったので調べる.

f:id:iwiwi:20140702223752p:plain

↑一般では「にこまき」に2倍以上の差を付けられていた「のぞえり」だが,R-18 では差を詰めているようだ


f:id:iwiwi:20140702224050p:plain:w250

閾値 100,000 での R-18 ネットワーク.一般での閾値 1,000,000 にやや近い.一般では「まきりん」が「りんまき」より先に出てきていたのに対し,R-18 では「りんまき」の辺から出てくるらしい.


f:id:iwiwi:20140702224708p:plain:w150

閾値 30,000 での R-18 ネットワーク.


更新履歴等

  • 公開当初は "Pixiv" と表記していましたが,小文字が正式だという指摘を頂き,内容追加と同時に修正をしました.ご指摘ありがとうございます.(2014/07/02 の 18 時頃)
  • R-18 作品に限定した場合のデータを追加しました.(2014/07/02 の 18 時頃)
  • R-18 作品のデータが正しく取れてなかったという事を教えてもらい修正しました.(2014/07/02 の 23 時頃)