こんにちは。MLエンジニアの野澤(@takapy0210)です!
11月に入っていよいよ寒くなってきましたね。
寒いといえば、毎朝洗濯物を干すのが辛くなる季節でもあります。
このような季節も影響し、我が家ではドラム式洗濯機のデプロイが検討されています。もしオススメのドラム式洗濯機があれば教えてください!!
さて今回は、先日無事に開催することができました、「Connehito Marché vol.6 〜機械学習・データ分析市〜」の様子や、LTの内容などを簡単にご紹介できればと
思います!
(嬉しいことにLT枠もオーディエンス枠も満席となり、大盛況で終えることができました!)
今回のテーマ
今回は第6回目ということで「機械学習・データ分析」をテーマとして開催しました。
抽象的なテーマだったため、LT内容含めてどのような方々が参加してくださるのか、非常に楽しみでした!
ちなみにコネヒトマルシェでは毎回テーマを変えており、過去には下記のようなテーマで開催しています。
今回は、下記3つのお願いお伝えした上で、スタートさせていただきました!
LT内容
データ分析コンペにおいて特徴量管理に疲弊している全人類に伝えたい想い
by @takapy0210
概要
- データ分析コンペをnotebookだけで挑むといろんなツラミがある
- 特徴量管理とパイプライン組むとちょっと良くなった
(初っ端から時間オーバーしてすみませんでした。。。)
SageMakerで構築する価格推定システム
by @0xb5951さん
www.slideshare.net
概要
- 機械学習でなんかやってみてよと言われてやった
- 依頼がいくらで成約するかを推定
- SageMakerを用いて手早く実装した
- 今日リリース予定だったが、リリースできず
社内での円滑なデータ分析のために
by @yu__ya4さん
概要
- データ分析業務のポジティブな社内政治のお話
- 直接関係のないPJなどにも顔をだしたり、ランチに行ったりコミュニケーション取るのがめっちゃ大事(何やってるかわからない人にならないためにも)
- 結果として社内外でのプレゼンスが向上しいろんなことが円滑に進んだ
初めて機械学習PJをやってみて得た知見
by @yaginuuunさん
概要
- 自社サービスにレコメンドエンジンを入れた
- 簡単でも良いので、まずは結果を見える形にする
- Kaggleは役に立つ
SIGNATEの練習問題コンペで 57位までスコアを上げた話
by @shnagaiさん
概要
- 機械学習勉強しはじめて初めて自分でモデルを作った
- あとで分析結果などを見返したい時のために、メモを取るのが大切
- ドメイン知識をフル活用して、スコアを向上させた(57位/1748)
BigQueryいいよね!って話をしようと思ったらBigQueryより早いAzure Synapseが出た
by @YASU11552288さん
概要
- BigQuery良いよね、という話をしようと思っていたら、75倍速いAzure Synapseが出たので、急遽内容を変更
- Azure Synapseはインスタンス単位の課金でインデックスのチューニングが必要
- 導入を考えるとすこし運用コストが高そう
日本語学習済みモデルについて
by @TwYamatさん
概要
- 今はBERT が微笑む時代
- 学習済み言語モデルのGood / Badポイント
- 日本語学習済みモデルを使用すれば、様々なNLPタスクに取り組める一方で、日本語の学習済みモデルが少ないので、適応するには制限がありそう
Meta Kaggleを覗いてみた
by @IshizakiYukoさん
概要
- Kaggleって本当に流行っているか、Meta Kaggleを覗いて調べてみた
- 新規ユーザーは右肩上がりの一方、コンペにSubmitしているユーザーで分析してみると、鈍化している
- 最近は画像コンペが増えている
- kaggleの沼にはまろう
NGBoost論文読んでみた
by @ml_taroさん
概要
- kagglerにも人気かつ、つよつよAndrewNg先生が共著者だったので、読んでみた
- NGBoostは出力の不確実性を確率値として出力する
- 自然勾配(勾配が大きく変化する場所は慎重に&勾配があまり変化しない場所は大胆に)を用いることで、最適化を効率的にしている
NLP Beginner BERTを試す
by @ktr_wtbさん
概要
- BERTでkaggleの過去コンペを解いてみた
- BERTなら特になにもしなくてもそこそこ良いスコアが出るかと思いきや、そんなことはなかった
- Fine Tuningのやり方を工夫することが大事
SQLベースのMLパイプライン
by @hatuninaさん
概要
- データセットの作成と特徴量エンジニアリングをSQLで
- SQLをベースにすることで、使い回しやすい、共有しやすいなどのメリットがある
- 一方で、DBが混んでいるとデータ作成がボトルネックになりがち
競艇の順位予想をしてみた
by @wakame1367さん
概要
- 競艇のデータセットは公開されているが、表データっぽいtxtデータで、データクレンジングに8割の労力を割いた
- LightGBMでランク学習させた
- ドメイン知識が少なく、特徴量エンジニアリングがあまりできなかった。
- 実際に予測してみたところ、勝率は。。。
懇親会
今回はお寿司とお酒を手に乾杯しました。
参加者の方々で質問しあったり、LTの感想を伝えたりしていて、終始楽しそうな雰囲気で幕を閉じることができました!
個人的には、Twitter上で知っている人と顔を合わせてお話できたのがとても嬉しかったです!
最後に
というわけで、当日の様子をお届けしました!
拙い司会・進行でしたが、最後までお付き合い頂きありがとうございました!
私自身もとても楽しく参加させていただきました!
次回開催時期・テーマなどはまだ決まっておりませんが、今回のマルシェの振り返りを社内で実施したときに「今回盛況だったから、次回も機械学習でいこうよ!(いこう)」という話がチラっとあがっていたので、もしかしたらもしかするかもしれません(笑)
参加していただいた皆さま、ありがとうございました!
また次回のマルシェでお会いできたら嬉しいです!