【統計分析】機械学習・データマイニング26

■ このスレッドは過去ログ倉庫に格納されています
2019/09/15(日) 09:23:06.34ID:bjsiNRs40

機械学習とデータマイニングについて語れ若人

*機械学習に意識・知能は存在しません。
人の意識に触れたい方はスレ違いです

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
Machine Learningを用いた論文一覧2018
https://shiropen.com/seamless/machine-learning/2018
2017年のディープラーニング論文100選
https://qiita.com/sakaiakira/items/f225b670bea6d851c7ea
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング23
https://mevius.5ch.net/test/read.cgi/tech/1551352040/
-
【統計分析】機械学習・データマイニング25
https://mevius.5ch.net/test/read.cgi/tech/1561568018/

【統計分析】機械学習・データマイニング24
https://mevius.5ch.net/test/read.cgi/tech/1556674785/
-
VIPQ2_EXTDAT: checked:vvvvvv:1000:512:----: EXT was configured
VIPQ2_EXTDAT: checked:vvvvvv:1000:512:: EXT was configured
771デフォルトの名無しさん (ワッチョイ 77dd-2tmj [122.249.73.11])
垢版 |
2019/12/30(月) 15:54:00.51ID:iq/klXJD0
古い日本人の陰湿さだよな結局
2019/12/30(月) 16:12:34.46ID:EbY28/9f0
もう日本は終わりだよ
どうしようもない
773デフォルトの名無しさん (ワッチョイ 77dd-2tmj [122.249.73.11])
垢版 |
2019/12/30(月) 16:21:10.72ID:iq/klXJD0
産総研、JST、NICT、理研あたりは実装公開しろ
774デフォルトの名無しさん (オッペケ Sr1f-6GiO [126.255.57.149])
垢版 |
2019/12/30(月) 17:47:06.43ID:hVGBluVVr
>>770
んなこたーない
スパゲッティなコード書かれたら検証も追実験もやりにくくなる
機械学習の論文の再現性がないのは大きな問題になっている
2019/12/30(月) 17:47:44.68ID:8pRHoXtUa
研究報告の本質は再現性の有無を確認してもらうことだ
機械学習分野で言えば都合のいい学習データ、テストデータを使っていて実用上そんな状況あり得ないとか、ハイパーパラメータどう決めたのかとか疑おうと思えばいくらでも疑える点は出てくる
それを払拭する唯一の方法は実際に書いたソースそのものを出すこと
そのソースは最早論文の一部なのだから書いた人にしか分からない滅茶苦茶なものを公開して「公開したのだからこれでいいだろ」などというのはあり得ない
776デフォルトの名無しさん (ワッチョイ df10-YTym [153.131.102.129])
垢版 |
2019/12/30(月) 17:58:08.77ID:U5SCa4jH0
>>775
ソースコード出しても他のデータでの
汎化誤差が小さいかどうか判らなくね?
2019/12/30(月) 18:04:19.52ID:cr0/Lsx50
STAP細胞はありまーす
2019/12/30(月) 19:15:55.84ID:tmdGEa4Zd
stap細胞はありました。
2019/12/30(月) 22:05:07.58ID:lxiCJ2Yf0
企業もIT云々と言われた時代から金を掛けないし人を育てようともして無かったんで伸びないだろ
AIについてソフトバンクの孫が日本は遅れていると吠えてたけどまともな人材すら流れて来てないんじゃないか
企業にとっては若者をいかに騙して利益を吸い取るかっていう分野だろう
日本ではIT土方より土方の方が将来性ある
780デフォルトの名無しさん (ワッチョイ ef1d-uaPE [143.189.31.12])
垢版 |
2019/12/30(月) 23:34:55.91ID:HsGQHO6z0
stanとかPyMCって明らかに統計解析向きでシステムに組み込みづらいけど、
明らかにNNよりベイズの枠組みで変数間の関係を記述する方が優れているので、数学弱者でも自力でアルゴリズムを導出する事なく、kerasみたいにシステムに組み込めるようになる日は来るんだろうか。
2019/12/31(火) 03:09:29.79ID:nxNHwLJH0
研究者のコードは糞で見てられない。
R&D何年かやってたけど、もう関わりたくないなぁ
2019/12/31(火) 04:10:23.19ID:RM1+Cid30
人に読ませることは重要ではない。
読めない奴は置いていけばよい
確固たる結果が付属する理屈があること。それさえあれば自然と読む人が必ずいる。
2019/12/31(火) 05:43:20.17ID:nxNHwLJH0
情報系の研究はソースコード公開してても読むやつほぼいないよ
バグとかそのまんまで放置されてる
動くかどうかすら怪しいから研究の副産物触るのは嫌い
2019/12/31(火) 08:04:33.96ID:NUJAOpc70
動かなかったら研究を追試できないと文句を言えばいいし
ぐちゃぐちゃコードで動けば追試できるしリファクタリングもできる
785デフォルトの名無しさん (オッペケ Sr1f-6GiO [126.255.57.149])
垢版 |
2019/12/31(火) 09:51:08.49ID:rB5IKPkdr
>>782
そして誰もいなくなった
786デフォルトの名無しさん (オッペケ Sr1f-6GiO [126.255.57.149])
垢版 |
2019/12/31(火) 09:52:45.34ID:rB5IKPkdr
>>783

> 情報系の研究はソースコード公開してても読むやつほぼいないよ

どうやって調べたの
2019/12/31(火) 11:11:19.86ID:9r6RBOcwM
たしかに酷いコード見るなあ
1関数1ファイルで何百行もあってif
文が大半のとか
リファクタリングしてあげたいけど、作者が読めなくなりそうで躊躇
2019/12/31(火) 12:51:42.15ID:cUwK5JbL0
ソフトバンクの損って節税(脱税)と投資失敗で話題の人か
2019/12/31(火) 13:10:46.49ID:K5ePzvxLa
>>782
その真逆でとことん人に読んでもらう・理解してもらう環境を整えることを追求した結果が今の世界的IT企業の躍進に繋がっているんだけど
2019/12/31(火) 13:20:30.79ID:RM1+Cid30
読む奴は存在すると言ってるだけ。
有益ならばちゃんと拾う
791デフォルトの名無しさん (ワッチョイ 4f54-2tmj [180.235.0.69])
垢版 |
2019/12/31(火) 13:56:00.88ID:NUJAOpc70
日本の論文だけなんだよ実装がないのって
海外のは下の脚注にgithubで公開してるぜとある
2019/12/31(火) 15:39:29.45ID:K5ePzvxLa
機械学習分野なんて玉石混交の論文が日々大量に出回っているのに読みやすさを無視して「有益なら読む人はいるだろ」
という態度で書いたものを読んでもらえるのなんて既に実績上げているごく一部の人だけなんだよな
2019/12/31(火) 21:47:08.95ID:+hXuYToDd
くっだらないね
だから読むっての
2019/12/31(火) 23:51:33.77ID:a+xjNkxx0
>>782
人が読めないのは100歩譲っても自分でも読めないとか言い出す馬鹿が多いからな。
それ根本的にソースが糞ってことだから。
2020/01/01(水) 00:51:57.38ID:EAfwe2HZM
論文読まないけどソース読むよ
2020/01/01(水) 03:50:18.57ID:Bw/I0Y2Fa
ソース公開しないのは発展性がない論文だからだよ
要は書き逃げ。そこから次々に論文が出てくるようなら
否応ざるにコードもちゃんと書かなければいけなくなる
それをしないということはその論文はゴミ、あるいは捏造
2020/01/01(水) 08:35:14.27ID:2Yvb+gk50
その判断は読者がするので
とにかく公開すればいい
798デフォルトの名無しさん (ワッチョイ 6b54-hZl1 [180.235.0.69])
垢版 |
2020/01/01(水) 11:06:21.99ID:2Yvb+gk50
ハーバード大のテキストは公開されてる
https://drive.google.com/file/d/1VmkAAGOYCTORq1wxSQqy255qLJjTNvBI/view
2020/01/01(水) 12:49:32.22ID:Bw/I0Y2Fa
まず、ソース公開は、業績にならないからな
次に、公開しない論文は自らゴミと認めていることでもある
どうせ使う人はいないだろうという意味合いもある
2020/01/01(水) 13:02:33.72ID:R7AcXQfB0
ソースより醤油
2020/01/01(水) 15:35:59.56ID:R/r7VkS4M
論文書いてる人はソース公開されないと実行できないとかいうレベルの人向けに書いてるわけじゃないんだぞ
2020/01/01(水) 15:44:55.51ID:EAfwe2HZM
追試しやすくなるから、やましいことがないならソースも公開した方がモテると思うよ
2020/01/01(水) 16:00:02.58ID:/oDzwe5Aa
>>801
論文に書かれた内容だけで論文に示された結果を完全再現できるような論文なんてほぼ存在しないことを知らないのか
それをソースで示して完全再現できるようにしない限り捏造の誹りから逃れることはできない
2020/01/01(水) 16:09:55.17ID:EAfwe2HZM
せやせや
2020/01/01(水) 16:22:41.75ID:kPvcajv80
1行目と2行目の繋がりがよくわからない。
世の中のほとんどの論文は捏造が疑われているということ?
806デフォルトの名無しさん (ワッチョイ 6b05-g2RO [116.94.174.100])
垢版 |
2020/01/01(水) 16:47:20.30ID:YftyIXIv0
>>803
お前はバカなんだから黙ってろ
2020/01/01(水) 17:02:22.17ID:AV+0j7FA0
>>805
捏造とは言わんが、特定のデータにチューンして宝くじ効果で上手くいったよね
みたいな論文ばっかだと思われる。
MNIST、CIFER10でしか実験してない論文とかな。
2020/01/01(水) 17:17:44.38ID:Q+lm5ndma
>>805
公開情報のみから判断した人に捏造と疑われても仕方がないということ
>>801は「ソース公開されないと実行できないとかいうレベルの人向けに書いてるわけじゃない」と言っているが論文をいくら読み込んでも必要な全情報が含まれないことなどザラにあるのだから実行して確認したくてもできないことが多い
だったら最初からソース丸ごと公開しろよ、ということ
その方が無駄な疑いに基づく手探りの検証過程などすっ飛ばして早く自分の成果を認めてもらえるのだから
2020/01/01(水) 17:26:30.85ID:kPvcajv80
結果が疑わしかったり論拠があやふやな論文はさすがに査読で落とされていると信じたいが。
大半がそんな状態だというのが共通認識だとしたらいまごろもっと問題視されてないか?
2020/01/01(水) 17:50:51.23ID:Bw/I0Y2Fa
水面下では問題視されている
結果が良すぎたり、特定の国の人が書いた論文は
信用されない
2020/01/01(水) 18:22:02.12ID:AV+0j7FA0
>>809
だから普通に問題視されてるだろ。
http://blog.livedoor.jp/tak_tak0/archives/52421590.html
812デフォルトの名無しさん (ワッチョイ 6b54-BJMr [180.235.0.69])
垢版 |
2020/01/01(水) 19:32:55.99ID:2Yvb+gk50
だから日本は遅れてる
何とかしろよ
2020/01/01(水) 19:46:28.03ID:kPvcajv80
それが共通認識になっていたとしたらもっと大問題にされているだろうと言っている。
2020/01/01(水) 19:52:14.44ID:AV+0j7FA0
連日報道でもされん限り問題になってないとか思っちゃうバカ?
何をもって問題になってるなってないというかによるとしか言いようがない。
使ってなけりゃ社会的な問題にはならんだろうし。
少なくとも「まるっきり信じてやったら上手くいきませんでしたー俺は悪くありません」
とか言い出す奴は、自分の職場では大問題だわ。
2020/01/01(水) 20:34:27.25ID:kPvcajv80
「論文に書いてあることなんて信用できないからその通りにできなくても俺の責任じゃありません」
と言ってるのかと思ったが。
2020/01/01(水) 20:50:13.15ID:W/LYnAl/0
>>809
> 結果が疑わしかったり論拠があやふやな論文はさすがに査読で落とされていると信じたい
希望論でつねわかります

>>815
実験系だと
論文の結果そのものは
往々にしてミラクルなオリンピックレコード的な伺か
って暗黙の了解なんだけどぬ・・・
2020/01/01(水) 21:00:46.16ID:AV+0j7FA0
もう馬鹿は「再現性なんてなくても問題ない」と思ってりゃいいよ。
お前の中ではそれでも問題ないんだろう。
2020/01/01(水) 23:03:53.85ID:VTgMf2Yt0
実装が公開されてるけど、実行しても論文通りの結果が出ないとか普通にあるしなぁ
ソースが公開されてても査読者は暇じゃない限り実行せんしな
2020/01/01(水) 23:48:05.60ID:1biaYKqja
さらにデータを開示してもらわなければならない
「このデータ・セットではうまくいった」
実はそのデータ・セット以外ではうまくいない
じゃあダメじゃん
よくある話だ
820デフォルトの名無しさん (ワッチョイ 6b54-hZl1 [180.235.0.69])
垢版 |
2020/01/02(木) 07:41:44.81ID:abNQ9/EA0
まともな論文はオープンなデータを使うか
実験に使ったデータを公開してる

JST、産総研、NICT、理研、NTTあたりはこれらもやってない
2020/01/02(木) 09:14:28.28ID:tOCbQ3Wha
オープンなデータを使っているけど
データを恣意的に選択して実験しているため
他の人がやっても再現できないというのも
よくあるパターン
別に日本だけではないが
2020/01/02(木) 11:12:59.42ID:VAl9vceh0
データの選択によって再現性が失われているなら、抽出データが偏ってるし、
普通は検証段階で確認する

しかし、精度の高いモデル作りました→実践投入
で、新規データを食わせたら精度が右肩下がりって良くある光景
823デフォルトの名無しさん (アウウィフ FF0f-p4uH [106.171.74.125])
垢版 |
2020/01/02(木) 14:08:56.51ID:fRqsjLPxF
>>812
箱根マラソンもビッグデータωで戦ってるそうだ
https://toyokeizai.net/articles/-/321510?page=3
824デフォルトの名無しさん (ワッチョイ 0f10-qQU+ [153.131.102.129])
垢版 |
2020/01/02(木) 14:23:33.66ID:CkITwvFM0
>>822
よく言われる過学習になってると思う
過学習かそうでないかは未知データで訓練と同程度の性能が出るかどうか以外の判別方法ある?
2020/01/02(木) 19:01:13.39ID:GkTEMuMY0
ない。あったらみんな飛びついてる。
2020/01/02(木) 19:18:29.62ID:GkTEMuMY0
そういうわかりやすい汎化性能を表す指標ってものがあったら、それをロスに組み込めばいいわけだ。
だがそんな状況にはなってない。
2020/01/02(木) 22:19:42.02ID:KXPhUsay0
希望の結果に成らなかった事柄全て、過学習と言ってしまうことのないように
828デフォルトの名無しさん (ワッチョイ 6b54-BJMr [180.235.0.69])
垢版 |
2020/01/02(木) 23:09:33.24ID:abNQ9/EA0
日本の研究期間は
本当の意味で研究に寄与してない

松尾豊あたりがちゃんと言わなきゃダメだろ
2020/01/03(金) 09:51:46.65ID:JJK+Gv110
そんな自分を全否定するようなこと言えないだろw
2020/01/03(金) 10:33:40.29ID:dIGkMlOva
PyTorchとTensorFlow - 学界と産業界で有力なMLフレームワークはどちらか
https://www.infoq.com/jp/news/2019/12/State-Machine-Learning-fw-2019
831デフォルトの名無しさん (アウウィフ FF0f-p4uH [106.171.76.178])
垢版 |
2020/01/03(金) 11:57:25.32ID:lHIykz7yF
>>827
ほんそれ
日本の教育構造の欠陥だな
832デフォルトの名無しさん (ワッチョイ ab01-CjBp [126.161.32.147])
垢版 |
2020/01/03(金) 15:30:23.04ID:W71Q+2T/0
>>831
主語デカ
2020/01/03(金) 16:10:33.70ID:jtHjGBI50
粗探し <<<< 欠点の解消の実行
2020/01/03(金) 17:04:32.60ID:WpaKhE1wa
過学習の判定は当然ながら一定数の推論結果を総合して行うわけで個別の推論結果が希望通りかどうかなんてことはそもそも眼中にない
>>827は過学習が何なのか、どうやって過学習か否か判定するのかすら理解していないのだろう
2020/01/03(金) 17:59:55.69ID:gVRcdqQw0
松尾豊にダメ元で意見を送ってみることにした
実装とデータをgithubで公開することを基本にしろ、と
そうしないと日本の研究は停滞したままだ、と
2020/01/03(金) 18:29:08.35ID:6jkaCR+Q0
>>835
松尾に送ってどうするよ
2020/01/03(金) 18:34:20.22ID:b+HkQOrh0
繰り返しますが、うまくいかなかった事柄を過学習とラベリングし、考えることを止めないように。
過学習って言葉は使用禁止にしたいぐらいですね
2020/01/03(金) 18:37:58.64ID:b+HkQOrh0
>>835
松尾って奴には何も期待してないから別にやらなくてよい
2020/01/03(金) 19:54:17.54ID:hATKQL5q0
線形代数とか難しいんだけど、ライブラリ使いこなすだけだとやっぱりしぬ?
2020/01/03(金) 21:15:55.83ID:JJK+Gv110
機械学習は置いといても線形代数は理解してた方が今後の人生のためにはなる。
2020/01/03(金) 22:46:08.59ID:kIdsqT260
>>835
経産省と文部科学省に言うべきだが、
>>835が進言するより、松尾や落合が言った方が聞く耳を持って貰える
2020/01/04(土) 01:07:26.61ID:+fj4YEmI0
聞いてるふりをして聞き流してますよ
843デフォルトの名無しさん (ワッチョイ 6b54-hZl1 [180.235.0.69])
垢版 |
2020/01/04(土) 08:10:20.67ID:0FWfySRB0
PFNの連中でもいいけど
日本のAIベンチャー(笑)から建設的な意見が出てこないのも悲しい

やっぱり山師なんだろう
2020/01/04(土) 10:56:49.96ID:GvN9lrG00
実装を公開するといっても、実装した人の特異な環境、設定で
やっているかもしれないし。次はそれをもっと標準的な環境で
公開しろということになってきりがないような気がするが
2020/01/04(土) 11:08:32.58ID:uVSKRwzpM
まずは米国並みに公開すればいい。問題が出てきたら他国でも問題になるだろうから皆で考えればいいさ
846デフォルトの名無しさん (ワッチョイ 3bdd-BJMr [122.249.73.11])
垢版 |
2020/01/04(土) 11:41:58.28ID:ENDwxYLV0
公開するのってキリスト教的な考えなのかな
寄付みたいな

日本はどうも閉鎖的
847デフォルトの名無しさん (ワッチョイ 0f10-qQU+ [153.131.102.129])
垢版 |
2020/01/04(土) 11:42:29.12ID:j2BUyZ6N0
複数のデータセットでエラー率を測定して
その母比率を区間推定して
下限値が要求するレベルを超えているかどうかで
そのモデルを採用するか否か判別する方法はどうか

エラー率を他の指標にしてもいいかもしれない
848デフォルトの名無しさん (ワッチョイ 0f10-qQU+ [153.131.102.129])
垢版 |
2020/01/04(土) 11:43:40.22ID:j2BUyZ6N0
過学習しているモデルなら
エラー率の分散が大きくなると予想して
区間推定の区間が広くなって
下限値が下がると思う
2020/01/04(土) 11:56:52.06ID:NL29rqkc0
複数のデータセットをそんな簡単に用意できるわけないだろ。
クロスバリデーションからやり直し。
2020/01/04(土) 11:59:21.87ID:uVSKRwzpM
>>846
科学的なものではないか

材料系の実験論文は、材料と手順を書いても追試困難なものも多いそうな
計算機上で出来る実験はエビデンスとしてソースが使えるから、公開したら説得力が増して良いことばかり
2020/01/04(土) 12:19:30.68ID:NL29rqkc0
問題は説得力と信頼性を得ても金にならんてことだけどね。
852デフォルトの名無しさん (アウウィフ FF0f-p4uH [106.171.67.82])
垢版 |
2020/01/04(土) 12:31:23.41ID:trUJS7QSF
線形代数が難しいって言ってる人に聴きたいんだが
具体的にどの辺で詰まってるの?
2020/01/04(土) 12:33:42.39ID:n3QqNFMv0
論文の説得力が増しても給料上がったりに繋がらないなら、研究者の評価の仕方が違うんかね
お役所はどこを見てるのか
2020/01/04(土) 13:01:13.27ID:Eq0fd+t90
随伴行列とか
855デフォルトの名無しさん (アウアウウー Sa0f-CjBp [106.154.136.90])
垢版 |
2020/01/04(土) 13:12:18.47ID:lipfO/3va
>>844
イメージも一緒に公開するまでだ
856デフォルトの名無しさん (ワッチョイ 0f10-qQU+ [153.131.102.129])
垢版 |
2020/01/04(土) 13:20:23.20ID:j2BUyZ6N0
>>849
訓練に必要なデータ数はどの程度か目安を計算する式ある?
テスト用ならそれよりもっと少なくていいんじゃね?
857デフォルトの名無しさん (ワッチョイ 9fb3-Hx/H [125.173.52.11])
垢版 |
2020/01/04(土) 14:13:41.19ID:CQ4m6M+L0
教育やってるけど難しいと言ってる人は大抵固有値問題で引っかかる
2020/01/04(土) 14:39:53.48ID:eKUy87rqa
固有値で引っかかり
ジョルダン標準形で完全挫折
2020/01/04(土) 15:16:22.42ID:zJPV7nPe0
固有値では引っかからんだろ、ジョルダン標準形なら分かるが
2020/01/04(土) 16:07:21.47ID:+gXTwHr30
線形代数は大抵の大学の講義がひたすら定理の証明をなぞるだけで何のためにやってるのか説明しないからいつしか付いていく気が失せるのが問題
2020/01/04(土) 16:55:02.67ID:dVmT9Zd40
>>853
何本かいたか&何回発表したか しかかぞえてないぉ
だから
プレデター(ハゲタカ)ジャーナルとかプレデターカンファレーションがわらわらわー
862デフォルトの名無しさん (ワッチョイ 6b54-BJMr [180.235.0.69])
垢版 |
2020/01/04(土) 17:12:16.04ID:0FWfySRB0
じゃなくて
研究者としての矜持くらい持てよ
2020/01/04(土) 17:15:40.43ID:dVmT9Zd40
矜持と予算がケンカする現状なのー
2020/01/04(土) 17:58:28.14ID:UI0ynszPa
正当な評価を受けたいまともな研究者は海外へ出ていくだけ
2020/01/04(土) 19:20:25.08ID:mrNm0sQkF
ロジック/ロジカルシンキング/論理的思考と一般的に呼ばれるもので物事を解決しようとすると、基本的な問題解決のための方法は
帰納法によるアプローチ
演繹法によるアプローチ

この二つの何れかのアプローチに分けられる。
2020/01/04(土) 19:24:33.17ID:mrNm0sQkF
前者は、これまでの実績/経験則を元に一般法則を推定しようとするアプローチである。

一方後者は、確固たる前提/原理原則/一般規格から、確固たる結論を得る方法である。
2020/01/04(土) 19:27:21.07ID:mrNm0sQkF
例えば、ハイパーパラメータを弄って一定の効果・傾向を掴み、それを元に上手くいった/いかないを結論付けようとするのは帰納法による推論である
2020/01/04(土) 19:33:21.25ID:mrNm0sQkF
他方、小学1年の算数の例であるが…

1+1は2である。

これは、小学生1年生であろうが学校の先生であろうが、会社の社長であろうが一国の首相であろうが同じ答えを答えるだろう。
2020/01/04(土) 19:34:05.47ID:iP+F2XtLM
>>861
引用数も評価されると思ってた
引用稼ぐにはソース公開はいいと思うけどなあ
2020/01/04(土) 19:37:44.95ID:mrNm0sQkF
ただし、
数字を十進法ではなく二進法で表せば1+1=10である。

他に、
1+1の『+』の加算の定義を『×』乗算の定義と入れ換えれば1+1=1である。

あるいは、
2という数字の定義を5と入れ換えれば1+1=5である。
■ このスレッドは過去ログ倉庫に格納されています