iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

Querying K-Truss Community in Large and Dynamic Graph (SIGMOD'14)

  • 問題
    • グラフ G,クエリ:頂点 v, 整数 k
    • v を含む k-truss community をすべて列挙
  • k-truss vs. clique percolation
    • clique percolation: コミュニティと呼べない,パラメータが3つも,NP-Hard
    • k-truss: コミュニティの直径が |C|/k,高枝連結度,パラメタ1つ,多項式時間
  • index
    • simple index
      • 各枝の trussness を計算しておく
    • tcp index (tcp = triangle connectivity preserved)
      • simple の無駄:要らない枝へのアクセス,使用する枝への複数回のアクセス
      • 各頂点について近傍のみからなるグラフを考え,最大全域森を取る
      • うまいこと近傍のみからなるグラフを移りながら探索する
  • dynamic update
    • 下界だか上界だかを使って処理を枝刈りするらしい

Reverse Top-k Search using Random Walk with Restart (VLDB'14)

  • RWR
    • Bookmark Coloring Algorithm (BCA)
      • 受け取って少し確定して残りを配るタイプのやつ
    • ハブを活用
      • ハブの頂点は受け取っても配らないことにして,後でまとめて影響を計算
  • Reverse Top-K RWR Query
    • 頂点 q と k → 頂点 u からのの RWR で q が top-k に入る u を全て答える
    • 応用:「こいつに強い影響を与えている物の集合」が得られる
      • spam detection
      • popularity of authors in co-authorship network
      • promotion in co-purchase graph
  • Offline indexing
    • 各頂点から BCA を t ステップ走らせる → RWR の下界
    • 改良:ハブ,サイズ圧縮,・・s
  • Online Query Algorithm
    • proximity の上界と下界を狭めていくよくあるタイプ
  • 実験結果
    • web-Google で前処理時間 10^6 秒とは・・・
  • 応用実験 (5.4)
    • spam detection, co-author network を試している

国内学会の全国大会の大まかな日程

後輩が国内イベント(全国大会)に行ってみたいと言っていたので調べてリストアップしてみる.日程は目安として前回のもの.

他に関連が有りそうなものがあれば教えて下さい.

Path Skyline の計算サーベイ

厳密列挙アルゴリズム

  • (1984) On a multicriteria shortest path problem
    • Martin's Algorithm (元祖 Label Setting Approach)
  • (JACM'91) Multiobjective A*
    • 最初に single source でなく point-to-point にして global domination を導入したっぽい
  • (EJOR'92) A multicriteria pareto-optimal path algorithm
    • multidijkstra (MD).各コスト単体での距離(→下界)を前計算.
  • (SEA'09) Pareto Paths with SHARC
    • 前処理してる.次元が増えるとつらそう(変な制約を追加して厳密性を緩和してる)
  • (ICDE'10) Route skyline queries: A multi-preference path planning approach
    • ARSC
    • reference node embedding という前処理により下界を前計算
  • (2012) Multiobjective heuristic search in road maps
    • クエリごとの前処理系
  • (Arxiv'14) ParetoPrep: Fast computation of Path Skylines Queries
    • グローバルな前処理はなし,クエリ事の前処理系
    • MD とかより良い下界が計算できるから良い,みたいな感じっぽい
  • みてない
    • (2012) Faster Multiobjective Heuristic Search in Road Maps
    • (2011) Multiobjective route planning with precalculated heuristics
    • (2012) An Analysis of Some Algorithms and Heuristics for Multiobjective Graph Search
    • (2013) A case of pathology in multiobjective heuristic search

その他

OR 系では multi-objective shortest path problem と呼ばれているらしい

  • サーベイ
    • (2000) A classification of bicriterion shortest path (bsp) algorithms
    • (2009) A comparison of solution strategies for biobjective shortest path problems
    • (2007) Selected multicriteria shortest path problems: An analysis of complexity, models and adaptation of standard algorithms
    • (2000) A survey and annotated bibliography of multiobjective combinatorial optimization
  • 指数個の Skyline があるので NP-Hard
    • (1980) Multiple criteria decision making theory and application
  • 相関が強ければ Skyline は少ない
    • (2001) Pareto shortest paths is often feasible in practice
  • FPTAS
    • (1980) Multiple criteria decision making theory and application
    • (1987) Approximation of pareto optima in multiple-objective, shortest-path problems
    • (2006) Multiobjective optimization: Improved fptas for shortest paths and non-linear objectives with applications.
  • 遺伝的アルゴリズム
    • (2007) Evolutionary algorithms for the multi-objective shortest path problem

クラウドストレージを用いた個人データのバックアップ法の比較

クラウドストレージを使って,個人データの簡単かつ安心なバックアップを実現したい.現在の選択肢を調べてみた.

前提

自分がバックアップしたいデータは,写真が中心.現在 1TB 弱.

(ただ,将来的には数 TB 行きそう.)

Amazon S3/Glacier

有名なヤツ.1GB/1円.

Google Drive

今年の 3 月に Google Drive が凄い安くなったらしい.1TB で $9.99/月.

  • メリット
    • Amazon ほどではないかもしれないが,信頼度は高そう
    • Gmail の容量も増えることになるので調度良いかも(今,無料分の半分ぐらい来てる)
  • デメリット
    • 1TB を超えるといきなり 10TB になる(月 $99.99……)
    • クライアントがショボい.Linux が無い.Win/Mac でも未だに LAN 同期をサポートしてないらしい.

Dropbox

と思ったら更に今年の 8 月末に Dropbox も凄い安くなっていた.1TB で 12,000 円/月.

  • メリット
    • Dropbox は使い慣れている.クライアントも比較的良くできてる.
    • Dropbox の容量も増えることになるので調度良いかも
      • というか,University Race で獲得した容量が今年の 12 月に expire するので課金不可避なのでは……
  • デメリット
    • 1TB を超えるプランが無い
    • 普段使いとシステムが被ることによる面倒がある.
      • 例えば,写真等のバックアップデータは違うドライブに置きたいが,Dropbox 公式クライアントは同期するディレクトリを一箇所にするので,全てを同じドライブに置かなければならないという制約ができる.

番外編:Bit Torrent Sync

クラウドストレージの利点は,手間の他,(あってほしくないが)家が火事・水没などした時にもデータが取り戻せること.家の中でバックアップしてる限りこれは解消されない.

しかし,それなら実家と下宿先など2ヶ所でデータを同期していればそれで十分なようにも思う.Bit Torrent Sync というヤツが便利そう.

  • メリット
    • 安い?[要検証]
    • 容量も自分の需要に合わせて変更できる
  • デメリット
    • Bit Torrent Sync は未だに beta.
    • 設定や管理を自分で行わなければならない.時たま設置場所にわざわざ行かねばならない.

Online Topic-aware Influence Maximization Queries (EDBT'14)

  • topic-aware IC model (ICDM'12)
  • 提案手法
    • 1000 点ぐらい代表的なベクトルを作って,先に計算しておく
    • クエリが来たら適当に混ぜて答えを作る
    • 怪しい謎の努力がいっぱいある
  • 実験結果
    • 普通に計算してもはやそうな小さなグラフ

問題は面白そう

Collaborative learning in networks (PNAS'12)

模倣と集合知

  • 面白い実験 Goldon (1907)
    • 牛を見せて,体重の推測値を考えさせる
    • 専門家 1 人の推測よりも,大勢が投票した結果を平均した結果のほうが誤差が小さかった
  • 集合知が形成されるための条件
    • 意見の多様性
    • 個人の判断の独立性
    • 課題:多様性を保ちつつ,個人の選択を集積しなければならない
  • コレに関する実験 PNAS'11
    • 5 ラウンドで答えるクイズ,情報をどのぐらい共有するかを変えてみる
    • diversity 下がり error も下がる
  • ゲーム理論都の関係 Rogers, 1988
    • 模倣 (e.g., カンニング) は,する人数が少ないと得をするが,増えてくると損になってくる
    • 一方で,人は強い模倣傾向を持つ

複雑ネットワークと模倣との関係

概要:距離・クラスターが集合意思決定に影響

Journal of Experimental Psychology: General, 2008
  • 1引数関数で出来るだけ大きい値を見つける感じの課題
  • 各ラウンド,近傍が選んだ選択肢とスコアがフィードバックされる
  • グラフ:full, small-world, random, regular lattice
  • 結果
    • Unimodal optima の場合:Full netework 最強(簡単)
    • Multimodal optima の場合:Small world の方が global maxima を見つける
    • もっと病的な例:Lattice が若干良い
    • 課題の難易度によってネットワークの優劣が変わってくる
PNAS'12
  • 今度は 100X100 のグリッドでやっぱり最適化
  • 距離の短い&クラスターの少ないネットワークのほうがパフォーマンスが高い
  • ジレンマ
    • 模倣を行う参加者ほど利得が高い
    • しかし模倣する参加者が増えるとピークは発見されにくい

SIGMOD 2014

グラフ

  • Influence Maximization: Near-Optimal Time Complexity Meets Practical Efficiency
  • Tripartite Graph Clustering for Dynamic Sentiment Analysis on Social Media
  • Querying K-Truss Community in Large and Dynamic Graphs
  • Reachability Queries on Dynamic Graphs: A Hierarchical Labeling Approach
  • Local Search of Communities in Large Graphs
  • Scalable Similarity Search for SimRank
  • Efficient Cohesive Subgraphs Detection in Parallel
  • Parallel Subgraph Listing in a Large-Scale Graph
  • OPT: A New Framework for Overlapped and Parallel Triangulation in Large-scale Graphs
  • Fast and Unified Local Search for Random Walk Based K-Nearest-Neighbor Query in Large Graphs

グラフだけどあんまり関係なさそう

  • Scalable Big Graph Processing in MapReduce
  • In Search of Influential Event Organizers in Online Event-based Social Networks
  • Efficient Location-Aware Influence Maximization
  • Efficient Algorithms for Optimal Location Queries in Road Networks
  • Navigating the Maze of Graph Analytics Frameworks using Massive Graph Datasets
  • Localizing Anomalous Changes in Time-evolving Graphs
  • Mining Statistically Significant Connected Subgraphs in Vertex Labeled Graphs
  • Querying Big Graphs within Bounded Resources
  • Answering Top-k Representative Queries on Graph Databases

それ以外で気になる

  • A Comprehensive Study of Main-Memory Partitioning and its Application to Large-Scale Comparison and Radix-Sort

日本人

  • AutoPlait: Automatic Mining of Co-evolving Time Sequences
  • Resource-Oriented Approximation for Frequent Itemset Mining from Bursty Data Streams

Greedy Algorithms and Local Search (Chapter 2, The Design of Approximation Algorithms)

2.1 Scheduling jobs with deadlines on a single machine

  • 問題:スケジューリング.max(締切を過ぎた時間) を最小化したい
    • NP-hard (0 以下か否かの判定だけでも strongly NP-hard)
    • 以下,d_i < 0 と仮定する
  • アルゴリズム:Greedy に締切が近いやつからやっていく
  • 近似値の評価
    • 最適値の lower-bound を得る
    • 近似値の upper-bound を得る

省略:大体おなじ

  • 2.2 The k-center problem
  • 2.3 Scheduling jobs on identical parallel machines

2.4 The traveling salesman problem

  • 今日は symmetric 仮定
  • 困難性:一般の場合
    • P≠NP であれば定数近似無理
    • それどころか O(2^n) 近似すら無理
    • ハミルトン閉路問題が帰着できてしまうから
  • なので,特別ケースを考えます:metric TSP(三角不等式が成立)
  • アルゴリズム1:最小全域木を考えるやつ
    • 2近似です.
  • アルゴリズム2:マッチング使うやつ
    • 最小全域木を考え,次数が奇数になっている頂点たちで,minimum weighted matching
    • グラフ H = 最小全域木 T + マッチング M
    • M の重みが 1/2 OPT 以下であることを示せれば良い
      • 最適なもの O から辺を交互に取り出すと,マッチングになっている
      • そのどちらかは,1/2 OPT 以下の最小マッチングである
  • 困難性
    • P≠NP であれば 220/219 未満近似は無理 (2006 年)
    • 最近また改善されたって噂

2.5 Maximizing flota in bank accounts

  • 問題概要
    • 銀行を k 個選んで float の和を最大化せよ
  • 近似アルゴリズム:Greedy
  • 証明:submodular

2.7 Edge Coloring

  • 問題
    • 最大次数をΔとした時,Δ色は必要
  • 困難性
    • Δ=3 の場合,3-edge-colorable か否かは NP-complete
  • アルゴリズム:(Δ+1)-approximation(すごい)
    • 辺を順に塗っていく.辺 (u, v_0) を塗ろうとしているとする.
    • v_0 でまだ使ってない色を探し,その色で塗ろうとする
    • 増大路っぽくスワップしまくるとその色で塗れる

An Introduction to Approximation Algorithms (Chapter 1, The Design of Approximation Algorithms)

Set Cover 問題をひたすら扱う

  • Deterministic LP rounding
    • 要素の最大次数を f とする
    • LP を解き,1/f 以上になっているやつを 1 にする
    • f 近似
  • Deterministic dual LP rounding
    • 相補性定理
    • Primal-dual を使うと簡単に Dual 解が求まる
  • Greedy
    • 「コスト/新たにカバーできる要素数」が最大のものをとっていく
    • H_n 近似(タイト)
  • Randomized LP rounding
    • 定数 c
    • 集合 j に対し,「確率 x^*_j で表が出るコイン」を c ln n 回振って,表が出たら採用
    • 確率 1/n^{c-1} でカバーされる
    • コストの期待値 c ln n
    • 「コスト | カバーされる」の期待値 2c ln n

関数ポインタと関数オブジェクトと仮想関数の速度比較

趣旨

アルゴリズム内の処理の一部を指定させる一般的な方法には以下がある.

  • 関数ポインタを使う (qsort 等)
  • 関数オブジェクトを使う (std::sort 等)
  • 仮想関数を使う

これらで性能がどう変化するかを測定した.

結果概要

wandbox にて実験した:http://melpon.org/wandbox/permlink/H7VjfOqgiEh4XWCP

pointer: 5.036541 sec
template: 3.373498 sec
virtual: 4.716775 sec
inline: 3.322171 sec

  • pointer とは関数ポインタで指定した場合
  • template とは関数オブジェクトで指定した場合
  • virtual とは仮想関数を使って指定した場合
  • inline とは指定なしでベタ書きした場合,一番最適化が効くはず

結果は template が inline とほぼ同等の速度で他より有意に高速であった.予想通りですね.これは,最適化の対象となるコードがベタ書きにかなり近くなり,インライン化等を含む最適化が効果的に働くから.

続きを読む

CPLEX 色々

探索ノード数を得る

    IloCplex cplex(model);
...
    cplex.solve();
    cout << "Nodes: " << cplex.getNnodes() << endl;

カット数を得る

    cout << "Cuts: " << cplex.getNcuts(IloCplex::CutClique) << endl;
ruby -ne 'puts "IloCplex::" + $_.split("=")[0].strip + ","'
    int num_cuts = 0;
    for (IloCplex::CutType c : {
             IloCplex::CutCover,
             IloCplex::CutGubCover,
             IloCplex::CutFlowCover,
             IloCplex::CutClique,
             IloCplex::CutFrac,
             IloCplex::CutMCF,
             IloCplex::CutMir,
             IloCplex::CutFlowPath,
             IloCplex::CutDisj,
             IloCplex::CutImplBd,
             IloCplex::CutZeroHalf,
             IloCplex::CutLocalCover,
             IloCplex::CutTighten,
             IloCplex::CutObjDisj,
             IloCplex::CutLiftProj,
             IloCplex::CutUser,
             IloCplex::CutTable,
             IloCplex::CutSolnPool}) {
      num_cuts += cplex.getNcuts(c);
    }
    cout << "Cuts: " << num_cuts << endl;

厳密解を求めさせる

    cplex.setParam(IloCplex::Param::MIP::Tolerances::MIPGap, 0.0);

並列を封じる

    cplex.setParam(IloCplex::Param::Threads, 1);

羽田の飛行機に乗るために間違えて成田に行ってしまった人の話

I 田さんが間違えて行ってしまったが起死回生したので有用なメモとしてその時の記録を残す

  1. 14:20 成田着 → 爆速でタクシーに乗る
  2. 15:20 羽田 国内線第二ターミナルに何故か降ろされる(ANA は国内線ですら第一なので完全に謎) → バスで移動
  3. 15:40 羽田 国際線ターミナル
  4. 15:55 合流
  • 16:20 発,15:55 搭乗の ANA の飛行機で,14:20 頃に待ち合わせしていた
  • 2万円程度の予算が必要です

国際ジャーナル

そろそろジャーナルにも論文を出してみたいのですが,本当にどこがいいのか分からない……ダレカタスケテー

DB 系

ランキング http://academic.research.microsoft.com/RankList?entitytype=4&topdomainid=2&subdomainid=18&last=10

ACM TODS

多分超有名?でも会議論文からの差分を 30% 要求される.通る気がしない.

http://tods.acm.org/Authors.html#ManuscriptPreparation

A submitted manuscript that is based on one or more previous publications by one or more of the authors should have at least 30% new material. (略)

VLDB Journal

やっぱりこっちも超有名? こっちも 30% の差分を要求される.

http://vldb.org/vldb_journal/index.php/author-guidelines/submission-rules

A submission that substantially overlaps the authors' previous refereed or copyrighted publications, such as an extended version of a conference paper, must contain at least 30% significant new content.

IEEE TKDE

よく見かける気がする.見かける数が多いということはちょっとは緩いのではないかと推測していたが,なんとここでも差分が要求されるのであった……

http://www.computer.org/portal/web/peerreviewjournals/author

Papers previously published in conference proceedings, digests, preprints, or records are eligible for consideration provided that the papers have undergone substantial revision, and that the author informs the journal coordinator at the time of submission.

ていうか conference どころか preprint からも差分を要求するってなんかもう意味が分からないんだけれどなんでこういう慣習がまかり通ってるんだ…….でも revision だけでいいなら新しい貢献はなくてもいい?

Please be aware that editors and reviewers are required to check the submitted manuscript to determine whether a sufficient amount of new material has been added to warrant publication.
...
then you are required to cite the previous work(s) and clearly indicate how the new submission offers substantively novel or different contributions beyond those of the previously published work(s).

そんなことはなさそうだった(絶望)

その他

論文を殆ど見たことが無いけれど以下のようなジャーナルがあるようだ.

  • Information Systems (IS)
    • 出版社がよく見かける(緑色のサイトの) ELSEVIER である.よく知らない所よりは安心できる.
  • Information Systems Research (ISR)
    • 謎の出版社.名前がややこしい.
  • Knowledge and Information Systems Journal (KAIS)
  • Journal of Intelligent Information System (JIIS)
  • Data Mining and Knowledge Discovery (DMKD/DAMI)

James Cheng 先生 (http://www.cse.cuhk.edu.hk/~jcheng/publications.html) は駆け出しの頃はこれらのジャーナルを利用していた模様.KAIS 2 件,JIIS 1 件,DMKD 1 件.

その他

World Wide Web Journal

国際会議 World Wide Web に対応するジャーナルなのではないか,超ハイジャーナルなのでは,と思わせておいて多分実はそこまでのレベルではないっぽい予感がする(よく知らないけど).結構見かける.

http://www.springer.com/computer/database+management+%26+information+retrieval/journal/11280

Submission of a manuscript implies: that the work described has not been published before;

ん?

Internet Mathematics

よく知らないけれどたまに見かける気がする.

Please note that Internet Mathematics uses CrossCheck™ software to screen papers for unoriginal material. By submitting your paper to Internet Mathematics you are agreeing to any necessary originality checks your paper may have to undergo during the peer review and production processes.

conference paper をベースに提出したら unoriginal 判定されてしまうのか?

結論

どのジャーナルもなんか originality とか novelty を要求していてわけがわからなくなった.もしやこちらの界隈では best papers に選ばれて special issue に招待されない限り会議論文をそのままジャーナルなんて出せない?

というかびっくりしたけれどかの有名な Jure Leskovec も実はジャーナルは 11 本しか出してない?(DBLP 調べ)一方学会論文は 70 本を超える.ジャーナルはあまり要らないのか?

しかし喜連川先生はジャーナルも 60 本を超えていた,流石.(会議は200本超え)

ジャーナルとは一体何なのか……(続く)