Python でのデータ処理パイプライン
統計的処理、特徴量抽出、機械学習の訓練・予測のパイプラインを上手く扱いたい。
- scikit-learn:パイプラインがあるが、キャッシュしたりできない。
- joblib:scikit learn と仲良し(バンドル)。キャッシュしたりする機能がある。
- maf:求めているものに近いと思うけど、メンテされているのだろうか
並列・分散処理
- Celery:古そうに見えたが今も使われているようだ
- RQ http://python-rq.org/
- Dask:EC2ともくっついていてよさそう。joblib フロントエンドがあるがこれは使い物になるのか。なったらとても便利かも。
- mesos:期待していたが、Python のコードがパット見で触れたくない感じだった(Python2だしlowerCamelCaseだし)