Python でのデータ処理パイプライン

統計的処理、特徴量抽出、機械学習の訓練・予測のパイプラインを上手く扱いたい。

  • scikit-learn:パイプラインがあるが、キャッシュしたりできない。
  • joblib:scikit learn と仲良し(バンドル)。キャッシュしたりする機能がある。
  • maf:求めているものに近いと思うけど、メンテされているのだろうか

並列・分散処理

  • Celery:古そうに見えたが今も使われているようだ
  • RQ http://python-rq.org/
  • Dask:EC2ともくっついていてよさそう。joblib フロントエンドがあるがこれは使い物になるのか。なったらとても便利かも。
  • mesos:期待していたが、Python のコードがパット見で触れたくない感じだった(Python2だしlowerCamelCaseだし)