@uents blog

Code wins arguments.

JupyterCon 振り返り勉強会に参加してきた

先週 JupyterCon 振り返り勉強会 に参加した時のメモ.個人的には知らないキーワードも色々と拾えてとても参考になりました. 殴り書きで全然整理してないけど,放っておくとメモを無くしそうなのでブログに上げておこうと思います.

JupyterCon 2017 概括

JupyterLab

  • 2017年中にβリリース
  • 開発者向けのAPI整理はβ〜1.0にかけて行われる
  • エンドユーザー的にはUIが変わっただけっぽく見えるけど, 内部で使われているウェブ技術がごっそり入れ替わって,時代についていけるようになったらしい

JupyterHub

  • Jupyter Notebookをspawnしてマルチユーザー対応したもの
  • JupyterLabをspawnするようなトピックはなかった → jupyterlab-hubというOSSあるらしい
  • セキュリティ確保,認証機構などはこれから.5〜6人の組織ではめっちゃ使える
  • Dockerのイメージもあるよ (環境構築不要!)

Reproducibility, Collaboration

  • FAIRの原則が守られているか
    • Findable, Accessible, Interoperable(共通仕様に従う.オレオレ仕様の排除), Reusable
  • Jupyterで論文を書く時代?
  • Apache Arrowは要ウォッチ.インメモリデータでシステムが繋がる時代

Pandas, Binder, GeoNotebook, IPySigma 作者の発表

Data science without borders

  • https://conferences.oreilly.com/jupyter/jup-ny/public/schedule/detail/59937
  • PandasのCreator,Wesの資料 (ゲストスピーカー)
  • SILO: コラボレーションできない要因となっているもの
  • Shared DataFrame Runtime => Pandas
  • Portable Data Science => Apache Arrow
    • Zero Copy Interchange => Shared Memory + Standard Memory Format
    • フォーマットが異なろうが,オンメモリとなればみな同じ
    • Pandas2すごいらしい
    • "Superset" of representations supported by R, Pandas, SQL engines
    • Pandas 0.21.x からApache Parquet対応!

Making science happen faster

  • Jeremy Freeman (Chan Zuckerberg Initiative)
  • Binder (DockerからJupyter環境を提供するサービス) の作者のひとり
  • ある一定期間だけ使える使い捨ての環境ができる
  • 例えば論文で言及されたソフトウェアが再現できるか,などの用途など

ちなみにBinderについて

  • Dockfileを最初に見に行く.なければpipのrequirements.txtを見に行く
  • ちなみにBinderのサービスのコアはBinderHubがベース

GeoNotebook: An extension to the Jupyter Notebook for exploratory geospatial analysis

Beautiful networks and network analytics made simpler with Jupyter

懇談会的な雑談でのキーワード