【統計分析】機械学習・データマイニング26

2019/09/15(日) 09:23:06.34

機械学習とデータマイニングについて語れ若人

＊機械学習に意識・知能は存在しません。
人の意識に触れたい方はスレ違いです

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
Machine Learningを用いた論文一覧2018
https://shiropen.com/seamless/machine-learning/2018
2017年のディープラーニング論文100選
https://qiita.com/sakaiakira/items/f225b670bea6d851c7ea
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング23
https://mevius.5ch.net/test/read.cgi/tech/1551352040/
-
【統計分析】機械学習・データマイニング25
https://mevius.5ch.net/test/read.cgi/tech/1561568018/

【統計分析】機械学習・データマイニング24
https://mevius.5ch.net/test/read.cgi/tech/1556674785/
-
VIPQ2_EXTDAT: checked:vvvvvv:1000:512:----: EXT was configured

VIPQ2_EXTDAT: checked:vvvvvv:1000:512:: EXT was configured

2019/12/30(月) 15:54:00.51

古い日本人の陰湿さだよな結局

2019/12/30(月) 16:12:34.46

もう日本は終わりだよ
どうしようもない

2019/12/30(月) 16:21:10.72

産総研、JST、NICT、理研あたりは実装公開しろ

2019/12/30(月) 17:47:06.43

>>770
んなこたーない
スパゲッティなコード書かれたら検証も追実験もやりにくくなる
機械学習の論文の再現性がないのは大きな問題になっている

2019/12/30(月) 17:47:44.68

研究報告の本質は再現性の有無を確認してもらうことだ
機械学習分野で言えば都合のいい学習データ、テストデータを使っていて実用上そんな状況あり得ないとか、ハイパーパラメータどう決めたのかとか疑おうと思えばいくらでも疑える点は出てくる
それを払拭する唯一の方法は実際に書いたソースそのものを出すこと
そのソースは最早論文の一部なのだから書いた人にしか分からない滅茶苦茶なものを公開して「公開したのだからこれでいいだろ」などというのはあり得ない

2019/12/30(月) 17:58:08.77

>>775
ソースコード出しても他のデータでの
汎化誤差が小さいかどうか判らなくね？

2019/12/30(月) 18:04:19.52

STAP細胞はありまーす

2019/12/30(月) 19:15:55.84

stap細胞はありました。

2019/12/30(月) 22:05:07.58

企業もIT云々と言われた時代から金を掛けないし人を育てようともして無かったんで伸びないだろ
AIについてソフトバンクの孫が日本は遅れていると吠えてたけどまともな人材すら流れて来てないんじゃないか
企業にとっては若者をいかに騙して利益を吸い取るかっていう分野だろう
日本ではIT土方より土方の方が将来性ある

2019/12/30(月) 23:34:55.91

stanとかPyMCって明らかに統計解析向きでシステムに組み込みづらいけど、
明らかにNNよりベイズの枠組みで変数間の関係を記述する方が優れているので、数学弱者でも自力でアルゴリズムを導出する事なく、kerasみたいにシステムに組み込めるようになる日は来るんだろうか。

2019/12/31(火) 03:09:29.79

研究者のコードは糞で見てられない。
R&D何年かやってたけど、もう関わりたくないなぁ

2019/12/31(火) 04:10:23.19

人に読ませることは重要ではない。
読めない奴は置いていけばよい
確固たる結果が付属する理屈があること。それさえあれば自然と読む人が必ずいる。

2019/12/31(火) 05:43:20.17

情報系の研究はソースコード公開してても読むやつほぼいないよ
バグとかそのまんまで放置されてる
動くかどうかすら怪しいから研究の副産物触るのは嫌い

2019/12/31(火) 08:04:33.96

動かなかったら研究を追試できないと文句を言えばいいし
ぐちゃぐちゃコードで動けば追試できるしリファクタリングもできる

2019/12/31(火) 09:51:08.49

>>782
そして誰もいなくなった

2019/12/31(火) 09:52:45.34

>>783

> 情報系の研究はソースコード公開してても読むやつほぼいないよ

どうやって調べたの

2019/12/31(火) 11:11:19.86

たしかに酷いコード見るなあ
1関数1ファイルで何百行もあってif
文が大半のとか
リファクタリングしてあげたいけど、作者が読めなくなりそうで躊躇

2019/12/31(火) 12:51:42.15

ソフトバンクの損って節税（脱税）と投資失敗で話題の人か

2019/12/31(火) 13:10:46.49

>>782
その真逆でとことん人に読んでもらう・理解してもらう環境を整えることを追求した結果が今の世界的IT企業の躍進に繋がっているんだけど

2019/12/31(火) 13:20:30.79

読む奴は存在すると言ってるだけ。
有益ならばちゃんと拾う

2019/12/31(火) 13:56:00.88

日本の論文だけなんだよ実装がないのって
海外のは下の脚注にgithubで公開してるぜとある

2019/12/31(火) 15:39:29.45

機械学習分野なんて玉石混交の論文が日々大量に出回っているのに読みやすさを無視して「有益なら読む人はいるだろ」
という態度で書いたものを読んでもらえるのなんて既に実績上げているごく一部の人だけなんだよな

2019/12/31(火) 21:47:08.95

くっだらないね
だから読むっての

2019/12/31(火) 23:51:33.77

>>782
人が読めないのは１００歩譲っても自分でも読めないとか言い出す馬鹿が多いからな。
それ根本的にソースが糞ってことだから。

2020/01/01(水) 00:51:57.38

論文読まないけどソース読むよ

2020/01/01(水) 03:50:18.57

ソース公開しないのは発展性がない論文だからだよ
要は書き逃げ。そこから次々に論文が出てくるようなら
否応ざるにコードもちゃんと書かなければいけなくなる
それをしないということはその論文はゴミ、あるいは捏造

2020/01/01(水) 08:35:14.27

その判断は読者がするので
とにかく公開すればいい

2020/01/01(水) 11:06:21.99

ハーバード大のテキストは公開されてる
https://drive.google.com/file/d/1VmkAAGOYCTORq1wxSQqy255qLJjTNvBI/view

2020/01/01(水) 12:49:32.22

まず、ソース公開は、業績にならないからな
次に、公開しない論文は自らゴミと認めていることでもある
どうせ使う人はいないだろうという意味合いもある

2020/01/01(水) 13:02:33.72

ソースより醤油

2020/01/01(水) 15:35:59.56

論文書いてる人はソース公開されないと実行できないとかいうレベルの人向けに書いてるわけじゃないんだぞ

2020/01/01(水) 15:44:55.51

追試しやすくなるから、やましいことがないならソースも公開した方がモテると思うよ

2020/01/01(水) 16:00:02.58

>>801
論文に書かれた内容だけで論文に示された結果を完全再現できるような論文なんてほぼ存在しないことを知らないのか
それをソースで示して完全再現できるようにしない限り捏造の誹りから逃れることはできない

2020/01/01(水) 16:09:55.17

せやせや

2020/01/01(水) 16:22:41.75

1行目と2行目の繋がりがよくわからない。
世の中のほとんどの論文は捏造が疑われているということ？

2020/01/01(水) 16:47:20.30

>>803
お前はバカなんだから黙ってろ

2020/01/01(水) 17:02:22.17

>>805
捏造とは言わんが、特定のデータにチューンして宝くじ効果で上手くいったよね
みたいな論文ばっかだと思われる。
MNIST、CIFER10でしか実験してない論文とかな。

2020/01/01(水) 17:17:44.38

>>805
公開情報のみから判断した人に捏造と疑われても仕方がないということ
>>801は「ソース公開されないと実行できないとかいうレベルの人向けに書いてるわけじゃない」と言っているが論文をいくら読み込んでも必要な全情報が含まれないことなどザラにあるのだから実行して確認したくてもできないことが多い
だったら最初からソース丸ごと公開しろよ、ということ
その方が無駄な疑いに基づく手探りの検証過程などすっ飛ばして早く自分の成果を認めてもらえるのだから

2020/01/01(水) 17:26:30.85

結果が疑わしかったり論拠があやふやな論文はさすがに査読で落とされていると信じたいが。
大半がそんな状態だというのが共通認識だとしたらいまごろもっと問題視されてないか？

2020/01/01(水) 17:50:51.23

水面下では問題視されている
結果が良すぎたり、特定の国の人が書いた論文は
信用されない

2020/01/01(水) 18:22:02.12

>>809
だから普通に問題視されてるだろ。
http://blog.livedoor.jp/tak_tak0/archives/52421590.html

2020/01/01(水) 19:32:55.99

だから日本は遅れてる
何とかしろよ

2020/01/01(水) 19:46:28.03

それが共通認識になっていたとしたらもっと大問題にされているだろうと言っている。

2020/01/01(水) 19:52:14.44

連日報道でもされん限り問題になってないとか思っちゃうバカ？
何をもって問題になってるなってないというかによるとしか言いようがない。
使ってなけりゃ社会的な問題にはならんだろうし。
少なくとも「まるっきり信じてやったら上手くいきませんでしたー俺は悪くありません」
とか言い出す奴は、自分の職場では大問題だわ。

2020/01/01(水) 20:34:27.25

「論文に書いてあることなんて信用できないからその通りにできなくても俺の責任じゃありません」
と言ってるのかと思ったが。

2020/01/01(水) 20:50:13.15

>>809
> 結果が疑わしかったり論拠があやふやな論文はさすがに査読で落とされていると信じたい
希望論でつねわかります

>>815
実験系だと
論文の結果そのものは
往々にしてミラクルなオリンピックレコード的な伺か
って暗黙の了解なんだけどぬ・・・

2020/01/01(水) 21:00:46.16

もう馬鹿は「再現性なんてなくても問題ない」と思ってりゃいいよ。
お前の中ではそれでも問題ないんだろう。

2020/01/01(水) 23:03:53.85

実装が公開されてるけど、実行しても論文通りの結果が出ないとか普通にあるしなぁ
ソースが公開されてても査読者は暇じゃない限り実行せんしな

2020/01/01(水) 23:48:05.60

さらにデータを開示してもらわなければならない
「このデータ・セットではうまくいった」
実はそのデータ・セット以外ではうまくいない
じゃあダメじゃん
よくある話だ

2020/01/02(木) 07:41:44.81

まともな論文はオープンなデータを使うか
実験に使ったデータを公開してる

JST、産総研、NICT、理研、NTTあたりはこれらもやってない

2020/01/02(木) 09:14:28.28

オープンなデータを使っているけど
データを恣意的に選択して実験しているため
他の人がやっても再現できないというのも
よくあるパターン
別に日本だけではないが

2020/01/02(木) 11:12:59.42

データの選択によって再現性が失われているなら、抽出データが偏ってるし、
普通は検証段階で確認する

しかし、精度の高いモデル作りました→実践投入
で、新規データを食わせたら精度が右肩下がりって良くある光景

2020/01/02(木) 14:08:56.51

>>812
箱根マラソンもビッグデータωで戦ってるそうだ
https://toyokeizai.net/articles/-/321510?page=3

2020/01/02(木) 14:23:33.66

>>822
よく言われる過学習になってると思う
過学習かそうでないかは未知データで訓練と同程度の性能が出るかどうか以外の判別方法ある？

2020/01/02(木) 19:01:13.39

ない。あったらみんな飛びついてる。

2020/01/02(木) 19:18:29.62

そういうわかりやすい汎化性能を表す指標ってものがあったら、それをロスに組み込めばいいわけだ。
だがそんな状況にはなってない。

2020/01/02(木) 22:19:42.02

希望の結果に成らなかった事柄全て、過学習と言ってしまうことのないように

2020/01/02(木) 23:09:33.24

日本の研究期間は
本当の意味で研究に寄与してない

松尾豊あたりがちゃんと言わなきゃダメだろ

2020/01/03(金) 09:51:46.65

そんな自分を全否定するようなこと言えないだろw

2020/01/03(金) 10:33:40.29

PyTorchとTensorFlow - 学界と産業界で有力なMLフレームワークはどちらか
https://www.infoq.com/jp/news/2019/12/State-Machine-Learning-fw-2019

2020/01/03(金) 11:57:25.32

>>827
ほんそれ
日本の教育構造の欠陥だな

2020/01/03(金) 15:30:23.04

>>831
主語デカ

2020/01/03(金) 16:10:33.70

粗探し <<<< 欠点の解消の実行

2020/01/03(金) 17:04:32.60

過学習の判定は当然ながら一定数の推論結果を総合して行うわけで個別の推論結果が希望通りかどうかなんてことはそもそも眼中にない
>>827は過学習が何なのか、どうやって過学習か否か判定するのかすら理解していないのだろう

2020/01/03(金) 17:59:55.69

松尾豊にダメ元で意見を送ってみることにした
実装とデータをgithubで公開することを基本にしろ、と
そうしないと日本の研究は停滞したままだ、と

2020/01/03(金) 18:29:08.35

>>835
松尾に送ってどうするよ

2020/01/03(金) 18:34:20.22

繰り返しますが、うまくいかなかった事柄を過学習とラベリングし、考えることを止めないように。
過学習って言葉は使用禁止にしたいぐらいですね

2020/01/03(金) 18:37:58.64

>>835
松尾って奴には何も期待してないから別にやらなくてよい

2020/01/03(金) 19:54:17.54

線形代数とか難しいんだけど、ライブラリ使いこなすだけだとやっぱりしぬ？

2020/01/03(金) 21:15:55.83

機械学習は置いといても線形代数は理解してた方が今後の人生のためにはなる。

2020/01/03(金) 22:46:08.59

>>835
経産省と文部科学省に言うべきだが、
>>835が進言するより、松尾や落合が言った方が聞く耳を持って貰える

2020/01/04(土) 01:07:26.61

聞いてるふりをして聞き流してますよ

2020/01/04(土) 08:10:20.67

PFNの連中でもいいけど
日本のAIベンチャー（笑）から建設的な意見が出てこないのも悲しい

やっぱり山師なんだろう

2020/01/04(土) 10:56:49.96

実装を公開するといっても、実装した人の特異な環境、設定で
やっているかもしれないし。次はそれをもっと標準的な環境で
公開しろということになってきりがないような気がするが

2020/01/04(土) 11:08:32.58

まずは米国並みに公開すればいい。問題が出てきたら他国でも問題になるだろうから皆で考えればいいさ

2020/01/04(土) 11:41:58.28

公開するのってキリスト教的な考えなのかな
寄付みたいな

日本はどうも閉鎖的

2020/01/04(土) 11:42:29.12

複数のデータセットでエラー率を測定して
その母比率を区間推定して
下限値が要求するレベルを超えているかどうかで
そのモデルを採用するか否か判別する方法はどうか

エラー率を他の指標にしてもいいかもしれない

2020/01/04(土) 11:43:40.22

過学習しているモデルなら
エラー率の分散が大きくなると予想して
区間推定の区間が広くなって
下限値が下がると思う

2020/01/04(土) 11:56:52.06

複数のデータセットをそんな簡単に用意できるわけないだろ。
クロスバリデーションからやり直し。

2020/01/04(土) 11:59:21.87

>>846
科学的なものではないか

材料系の実験論文は、材料と手順を書いても追試困難なものも多いそうな
計算機上で出来る実験はエビデンスとしてソースが使えるから、公開したら説得力が増して良いことばかり

2020/01/04(土) 12:19:30.68

問題は説得力と信頼性を得ても金にならんてことだけどね。

2020/01/04(土) 12:31:23.41

線形代数が難しいって言ってる人に聴きたいんだが
具体的にどの辺で詰まってるの？

2020/01/04(土) 12:33:42.39

論文の説得力が増しても給料上がったりに繋がらないなら、研究者の評価の仕方が違うんかね
お役所はどこを見てるのか

2020/01/04(土) 13:01:13.27

随伴行列とか

2020/01/04(土) 13:12:18.47

>>844
イメージも一緒に公開するまでだ

2020/01/04(土) 13:20:23.20

>>849
訓練に必要なデータ数はどの程度か目安を計算する式ある？
テスト用ならそれよりもっと少なくていいんじゃね？

2020/01/04(土) 14:13:41.19

教育やってるけど難しいと言ってる人は大抵固有値問題で引っかかる

2020/01/04(土) 14:39:53.48

固有値で引っかかり
ジョルダン標準形で完全挫折

2020/01/04(土) 15:16:22.42

固有値では引っかからんだろ、ジョルダン標準形なら分かるが

2020/01/04(土) 16:07:21.47

線形代数は大抵の大学の講義がひたすら定理の証明をなぞるだけで何のためにやってるのか説明しないからいつしか付いていく気が失せるのが問題

2020/01/04(土) 16:55:02.67

>>853
何本かいたか＆何回発表したか　しかかぞえてないぉ
だから
プレデター（ハゲタカ）ジャーナルとかプレデターカンファレーションがわらわらわー

2020/01/04(土) 17:12:16.04

じゃなくて
研究者としての矜持くらい持てよ

2020/01/04(土) 17:15:40.43

矜持と予算がケンカする現状なのー

2020/01/04(土) 17:58:28.14

正当な評価を受けたいまともな研究者は海外へ出ていくだけ

2020/01/04(土) 19:20:25.08

ロジック/ロジカルシンキング/論理的思考と一般的に呼ばれるもので物事を解決しようとすると、基本的な問題解決のための方法は
帰納法によるアプローチ
演繹法によるアプローチ

この二つの何れかのアプローチに分けられる。

2020/01/04(土) 19:24:33.17

前者は、これまでの実績/経験則を元に一般法則を推定しようとするアプローチである。

一方後者は、確固たる前提/原理原則/一般規格から、確固たる結論を得る方法である。

2020/01/04(土) 19:27:21.07

例えば、ハイパーパラメータを弄って一定の効果・傾向を掴み、それを元に上手くいった/いかないを結論付けようとするのは帰納法による推論である

2020/01/04(土) 19:33:21.25

他方、小学1年の算数の例であるが…

1＋1は2である。

これは、小学生1年生であろうが学校の先生であろうが、会社の社長であろうが一国の首相であろうが同じ答えを答えるだろう。

2020/01/04(土) 19:34:05.47

>>861
引用数も評価されると思ってた
引用稼ぐにはソース公開はいいと思うけどなあ

2020/01/04(土) 19:37:44.95

ただし、
数字を十進法ではなく二進法で表せば1+1=10である。

他に、
1＋1の『+』の加算の定義を『×』乗算の定義と入れ換えれば1+1＝1である。

あるいは、
2という数字の定義を5と入れ換えれば1+1＝5である。