【統計分析】機械学習・データマイニング26

■ このスレッドは過去ログ倉庫に格納されています
2019/09/15(日) 09:23:06.34ID:bjsiNRs40

機械学習とデータマイニングについて語れ若人

*機械学習に意識・知能は存在しません。
人の意識に触れたい方はスレ違いです

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
Machine Learningを用いた論文一覧2018
https://shiropen.com/seamless/machine-learning/2018
2017年のディープラーニング論文100選
https://qiita.com/sakaiakira/items/f225b670bea6d851c7ea
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング23
https://mevius.5ch.net/test/read.cgi/tech/1551352040/
-
【統計分析】機械学習・データマイニング25
https://mevius.5ch.net/test/read.cgi/tech/1561568018/

【統計分析】機械学習・データマイニング24
https://mevius.5ch.net/test/read.cgi/tech/1556674785/
-
VIPQ2_EXTDAT: checked:vvvvvv:1000:512:----: EXT was configured
VIPQ2_EXTDAT: checked:vvvvvv:1000:512:: EXT was configured
2019/12/31(火) 13:20:30.79ID:RM1+Cid30
読む奴は存在すると言ってるだけ。
有益ならばちゃんと拾う
791デフォルトの名無しさん (ワッチョイ 4f54-2tmj [180.235.0.69])
垢版 |
2019/12/31(火) 13:56:00.88ID:NUJAOpc70
日本の論文だけなんだよ実装がないのって
海外のは下の脚注にgithubで公開してるぜとある
2019/12/31(火) 15:39:29.45ID:K5ePzvxLa
機械学習分野なんて玉石混交の論文が日々大量に出回っているのに読みやすさを無視して「有益なら読む人はいるだろ」
という態度で書いたものを読んでもらえるのなんて既に実績上げているごく一部の人だけなんだよな
2019/12/31(火) 21:47:08.95ID:+hXuYToDd
くっだらないね
だから読むっての
2019/12/31(火) 23:51:33.77ID:a+xjNkxx0
>>782
人が読めないのは100歩譲っても自分でも読めないとか言い出す馬鹿が多いからな。
それ根本的にソースが糞ってことだから。
2020/01/01(水) 00:51:57.38ID:EAfwe2HZM
論文読まないけどソース読むよ
2020/01/01(水) 03:50:18.57ID:Bw/I0Y2Fa
ソース公開しないのは発展性がない論文だからだよ
要は書き逃げ。そこから次々に論文が出てくるようなら
否応ざるにコードもちゃんと書かなければいけなくなる
それをしないということはその論文はゴミ、あるいは捏造
2020/01/01(水) 08:35:14.27ID:2Yvb+gk50
その判断は読者がするので
とにかく公開すればいい
798デフォルトの名無しさん (ワッチョイ 6b54-hZl1 [180.235.0.69])
垢版 |
2020/01/01(水) 11:06:21.99ID:2Yvb+gk50
ハーバード大のテキストは公開されてる
https://drive.google.com/file/d/1VmkAAGOYCTORq1wxSQqy255qLJjTNvBI/view
2020/01/01(水) 12:49:32.22ID:Bw/I0Y2Fa
まず、ソース公開は、業績にならないからな
次に、公開しない論文は自らゴミと認めていることでもある
どうせ使う人はいないだろうという意味合いもある
2020/01/01(水) 13:02:33.72ID:R7AcXQfB0
ソースより醤油
2020/01/01(水) 15:35:59.56ID:R/r7VkS4M
論文書いてる人はソース公開されないと実行できないとかいうレベルの人向けに書いてるわけじゃないんだぞ
2020/01/01(水) 15:44:55.51ID:EAfwe2HZM
追試しやすくなるから、やましいことがないならソースも公開した方がモテると思うよ
2020/01/01(水) 16:00:02.58ID:/oDzwe5Aa
>>801
論文に書かれた内容だけで論文に示された結果を完全再現できるような論文なんてほぼ存在しないことを知らないのか
それをソースで示して完全再現できるようにしない限り捏造の誹りから逃れることはできない
2020/01/01(水) 16:09:55.17ID:EAfwe2HZM
せやせや
2020/01/01(水) 16:22:41.75ID:kPvcajv80
1行目と2行目の繋がりがよくわからない。
世の中のほとんどの論文は捏造が疑われているということ?
806デフォルトの名無しさん (ワッチョイ 6b05-g2RO [116.94.174.100])
垢版 |
2020/01/01(水) 16:47:20.30ID:YftyIXIv0
>>803
お前はバカなんだから黙ってろ
2020/01/01(水) 17:02:22.17ID:AV+0j7FA0
>>805
捏造とは言わんが、特定のデータにチューンして宝くじ効果で上手くいったよね
みたいな論文ばっかだと思われる。
MNIST、CIFER10でしか実験してない論文とかな。
2020/01/01(水) 17:17:44.38ID:Q+lm5ndma
>>805
公開情報のみから判断した人に捏造と疑われても仕方がないということ
>>801は「ソース公開されないと実行できないとかいうレベルの人向けに書いてるわけじゃない」と言っているが論文をいくら読み込んでも必要な全情報が含まれないことなどザラにあるのだから実行して確認したくてもできないことが多い
だったら最初からソース丸ごと公開しろよ、ということ
その方が無駄な疑いに基づく手探りの検証過程などすっ飛ばして早く自分の成果を認めてもらえるのだから
2020/01/01(水) 17:26:30.85ID:kPvcajv80
結果が疑わしかったり論拠があやふやな論文はさすがに査読で落とされていると信じたいが。
大半がそんな状態だというのが共通認識だとしたらいまごろもっと問題視されてないか?
2020/01/01(水) 17:50:51.23ID:Bw/I0Y2Fa
水面下では問題視されている
結果が良すぎたり、特定の国の人が書いた論文は
信用されない
2020/01/01(水) 18:22:02.12ID:AV+0j7FA0
>>809
だから普通に問題視されてるだろ。
http://blog.livedoor.jp/tak_tak0/archives/52421590.html
812デフォルトの名無しさん (ワッチョイ 6b54-BJMr [180.235.0.69])
垢版 |
2020/01/01(水) 19:32:55.99ID:2Yvb+gk50
だから日本は遅れてる
何とかしろよ
2020/01/01(水) 19:46:28.03ID:kPvcajv80
それが共通認識になっていたとしたらもっと大問題にされているだろうと言っている。
2020/01/01(水) 19:52:14.44ID:AV+0j7FA0
連日報道でもされん限り問題になってないとか思っちゃうバカ?
何をもって問題になってるなってないというかによるとしか言いようがない。
使ってなけりゃ社会的な問題にはならんだろうし。
少なくとも「まるっきり信じてやったら上手くいきませんでしたー俺は悪くありません」
とか言い出す奴は、自分の職場では大問題だわ。
2020/01/01(水) 20:34:27.25ID:kPvcajv80
「論文に書いてあることなんて信用できないからその通りにできなくても俺の責任じゃありません」
と言ってるのかと思ったが。
2020/01/01(水) 20:50:13.15ID:W/LYnAl/0
>>809
> 結果が疑わしかったり論拠があやふやな論文はさすがに査読で落とされていると信じたい
希望論でつねわかります

>>815
実験系だと
論文の結果そのものは
往々にしてミラクルなオリンピックレコード的な伺か
って暗黙の了解なんだけどぬ・・・
2020/01/01(水) 21:00:46.16ID:AV+0j7FA0
もう馬鹿は「再現性なんてなくても問題ない」と思ってりゃいいよ。
お前の中ではそれでも問題ないんだろう。
2020/01/01(水) 23:03:53.85ID:VTgMf2Yt0
実装が公開されてるけど、実行しても論文通りの結果が出ないとか普通にあるしなぁ
ソースが公開されてても査読者は暇じゃない限り実行せんしな
2020/01/01(水) 23:48:05.60ID:1biaYKqja
さらにデータを開示してもらわなければならない
「このデータ・セットではうまくいった」
実はそのデータ・セット以外ではうまくいない
じゃあダメじゃん
よくある話だ
820デフォルトの名無しさん (ワッチョイ 6b54-hZl1 [180.235.0.69])
垢版 |
2020/01/02(木) 07:41:44.81ID:abNQ9/EA0
まともな論文はオープンなデータを使うか
実験に使ったデータを公開してる

JST、産総研、NICT、理研、NTTあたりはこれらもやってない
2020/01/02(木) 09:14:28.28ID:tOCbQ3Wha
オープンなデータを使っているけど
データを恣意的に選択して実験しているため
他の人がやっても再現できないというのも
よくあるパターン
別に日本だけではないが
2020/01/02(木) 11:12:59.42ID:VAl9vceh0
データの選択によって再現性が失われているなら、抽出データが偏ってるし、
普通は検証段階で確認する

しかし、精度の高いモデル作りました→実践投入
で、新規データを食わせたら精度が右肩下がりって良くある光景
823デフォルトの名無しさん (アウウィフ FF0f-p4uH [106.171.74.125])
垢版 |
2020/01/02(木) 14:08:56.51ID:fRqsjLPxF
>>812
箱根マラソンもビッグデータωで戦ってるそうだ
https://toyokeizai.net/articles/-/321510?page=3
824デフォルトの名無しさん (ワッチョイ 0f10-qQU+ [153.131.102.129])
垢版 |
2020/01/02(木) 14:23:33.66ID:CkITwvFM0
>>822
よく言われる過学習になってると思う
過学習かそうでないかは未知データで訓練と同程度の性能が出るかどうか以外の判別方法ある?
2020/01/02(木) 19:01:13.39ID:GkTEMuMY0
ない。あったらみんな飛びついてる。
2020/01/02(木) 19:18:29.62ID:GkTEMuMY0
そういうわかりやすい汎化性能を表す指標ってものがあったら、それをロスに組み込めばいいわけだ。
だがそんな状況にはなってない。
2020/01/02(木) 22:19:42.02ID:KXPhUsay0
希望の結果に成らなかった事柄全て、過学習と言ってしまうことのないように
828デフォルトの名無しさん (ワッチョイ 6b54-BJMr [180.235.0.69])
垢版 |
2020/01/02(木) 23:09:33.24ID:abNQ9/EA0
日本の研究期間は
本当の意味で研究に寄与してない

松尾豊あたりがちゃんと言わなきゃダメだろ
2020/01/03(金) 09:51:46.65ID:JJK+Gv110
そんな自分を全否定するようなこと言えないだろw
2020/01/03(金) 10:33:40.29ID:dIGkMlOva
PyTorchとTensorFlow - 学界と産業界で有力なMLフレームワークはどちらか
https://www.infoq.com/jp/news/2019/12/State-Machine-Learning-fw-2019
831デフォルトの名無しさん (アウウィフ FF0f-p4uH [106.171.76.178])
垢版 |
2020/01/03(金) 11:57:25.32ID:lHIykz7yF
>>827
ほんそれ
日本の教育構造の欠陥だな
832デフォルトの名無しさん (ワッチョイ ab01-CjBp [126.161.32.147])
垢版 |
2020/01/03(金) 15:30:23.04ID:W71Q+2T/0
>>831
主語デカ
2020/01/03(金) 16:10:33.70ID:jtHjGBI50
粗探し <<<< 欠点の解消の実行
2020/01/03(金) 17:04:32.60ID:WpaKhE1wa
過学習の判定は当然ながら一定数の推論結果を総合して行うわけで個別の推論結果が希望通りかどうかなんてことはそもそも眼中にない
>>827は過学習が何なのか、どうやって過学習か否か判定するのかすら理解していないのだろう
2020/01/03(金) 17:59:55.69ID:gVRcdqQw0
松尾豊にダメ元で意見を送ってみることにした
実装とデータをgithubで公開することを基本にしろ、と
そうしないと日本の研究は停滞したままだ、と
2020/01/03(金) 18:29:08.35ID:6jkaCR+Q0
>>835
松尾に送ってどうするよ
2020/01/03(金) 18:34:20.22ID:b+HkQOrh0
繰り返しますが、うまくいかなかった事柄を過学習とラベリングし、考えることを止めないように。
過学習って言葉は使用禁止にしたいぐらいですね
2020/01/03(金) 18:37:58.64ID:b+HkQOrh0
>>835
松尾って奴には何も期待してないから別にやらなくてよい
2020/01/03(金) 19:54:17.54ID:hATKQL5q0
線形代数とか難しいんだけど、ライブラリ使いこなすだけだとやっぱりしぬ?
2020/01/03(金) 21:15:55.83ID:JJK+Gv110
機械学習は置いといても線形代数は理解してた方が今後の人生のためにはなる。
2020/01/03(金) 22:46:08.59ID:kIdsqT260
>>835
経産省と文部科学省に言うべきだが、
>>835が進言するより、松尾や落合が言った方が聞く耳を持って貰える
2020/01/04(土) 01:07:26.61ID:+fj4YEmI0
聞いてるふりをして聞き流してますよ
843デフォルトの名無しさん (ワッチョイ 6b54-hZl1 [180.235.0.69])
垢版 |
2020/01/04(土) 08:10:20.67ID:0FWfySRB0
PFNの連中でもいいけど
日本のAIベンチャー(笑)から建設的な意見が出てこないのも悲しい

やっぱり山師なんだろう
2020/01/04(土) 10:56:49.96ID:GvN9lrG00
実装を公開するといっても、実装した人の特異な環境、設定で
やっているかもしれないし。次はそれをもっと標準的な環境で
公開しろということになってきりがないような気がするが
2020/01/04(土) 11:08:32.58ID:uVSKRwzpM
まずは米国並みに公開すればいい。問題が出てきたら他国でも問題になるだろうから皆で考えればいいさ
846デフォルトの名無しさん (ワッチョイ 3bdd-BJMr [122.249.73.11])
垢版 |
2020/01/04(土) 11:41:58.28ID:ENDwxYLV0
公開するのってキリスト教的な考えなのかな
寄付みたいな

日本はどうも閉鎖的
847デフォルトの名無しさん (ワッチョイ 0f10-qQU+ [153.131.102.129])
垢版 |
2020/01/04(土) 11:42:29.12ID:j2BUyZ6N0
複数のデータセットでエラー率を測定して
その母比率を区間推定して
下限値が要求するレベルを超えているかどうかで
そのモデルを採用するか否か判別する方法はどうか

エラー率を他の指標にしてもいいかもしれない
848デフォルトの名無しさん (ワッチョイ 0f10-qQU+ [153.131.102.129])
垢版 |
2020/01/04(土) 11:43:40.22ID:j2BUyZ6N0
過学習しているモデルなら
エラー率の分散が大きくなると予想して
区間推定の区間が広くなって
下限値が下がると思う
2020/01/04(土) 11:56:52.06ID:NL29rqkc0
複数のデータセットをそんな簡単に用意できるわけないだろ。
クロスバリデーションからやり直し。
2020/01/04(土) 11:59:21.87ID:uVSKRwzpM
>>846
科学的なものではないか

材料系の実験論文は、材料と手順を書いても追試困難なものも多いそうな
計算機上で出来る実験はエビデンスとしてソースが使えるから、公開したら説得力が増して良いことばかり
2020/01/04(土) 12:19:30.68ID:NL29rqkc0
問題は説得力と信頼性を得ても金にならんてことだけどね。
852デフォルトの名無しさん (アウウィフ FF0f-p4uH [106.171.67.82])
垢版 |
2020/01/04(土) 12:31:23.41ID:trUJS7QSF
線形代数が難しいって言ってる人に聴きたいんだが
具体的にどの辺で詰まってるの?
2020/01/04(土) 12:33:42.39ID:n3QqNFMv0
論文の説得力が増しても給料上がったりに繋がらないなら、研究者の評価の仕方が違うんかね
お役所はどこを見てるのか
2020/01/04(土) 13:01:13.27ID:Eq0fd+t90
随伴行列とか
855デフォルトの名無しさん (アウアウウー Sa0f-CjBp [106.154.136.90])
垢版 |
2020/01/04(土) 13:12:18.47ID:lipfO/3va
>>844
イメージも一緒に公開するまでだ
856デフォルトの名無しさん (ワッチョイ 0f10-qQU+ [153.131.102.129])
垢版 |
2020/01/04(土) 13:20:23.20ID:j2BUyZ6N0
>>849
訓練に必要なデータ数はどの程度か目安を計算する式ある?
テスト用ならそれよりもっと少なくていいんじゃね?
857デフォルトの名無しさん (ワッチョイ 9fb3-Hx/H [125.173.52.11])
垢版 |
2020/01/04(土) 14:13:41.19ID:CQ4m6M+L0
教育やってるけど難しいと言ってる人は大抵固有値問題で引っかかる
2020/01/04(土) 14:39:53.48ID:eKUy87rqa
固有値で引っかかり
ジョルダン標準形で完全挫折
2020/01/04(土) 15:16:22.42ID:zJPV7nPe0
固有値では引っかからんだろ、ジョルダン標準形なら分かるが
2020/01/04(土) 16:07:21.47ID:+gXTwHr30
線形代数は大抵の大学の講義がひたすら定理の証明をなぞるだけで何のためにやってるのか説明しないからいつしか付いていく気が失せるのが問題
2020/01/04(土) 16:55:02.67ID:dVmT9Zd40
>>853
何本かいたか&何回発表したか しかかぞえてないぉ
だから
プレデター(ハゲタカ)ジャーナルとかプレデターカンファレーションがわらわらわー
862デフォルトの名無しさん (ワッチョイ 6b54-BJMr [180.235.0.69])
垢版 |
2020/01/04(土) 17:12:16.04ID:0FWfySRB0
じゃなくて
研究者としての矜持くらい持てよ
2020/01/04(土) 17:15:40.43ID:dVmT9Zd40
矜持と予算がケンカする現状なのー
2020/01/04(土) 17:58:28.14ID:UI0ynszPa
正当な評価を受けたいまともな研究者は海外へ出ていくだけ
2020/01/04(土) 19:20:25.08ID:mrNm0sQkF
ロジック/ロジカルシンキング/論理的思考と一般的に呼ばれるもので物事を解決しようとすると、基本的な問題解決のための方法は
帰納法によるアプローチ
演繹法によるアプローチ

この二つの何れかのアプローチに分けられる。
2020/01/04(土) 19:24:33.17ID:mrNm0sQkF
前者は、これまでの実績/経験則を元に一般法則を推定しようとするアプローチである。

一方後者は、確固たる前提/原理原則/一般規格から、確固たる結論を得る方法である。
2020/01/04(土) 19:27:21.07ID:mrNm0sQkF
例えば、ハイパーパラメータを弄って一定の効果・傾向を掴み、それを元に上手くいった/いかないを結論付けようとするのは帰納法による推論である
2020/01/04(土) 19:33:21.25ID:mrNm0sQkF
他方、小学1年の算数の例であるが…

1+1は2である。

これは、小学生1年生であろうが学校の先生であろうが、会社の社長であろうが一国の首相であろうが同じ答えを答えるだろう。
2020/01/04(土) 19:34:05.47ID:iP+F2XtLM
>>861
引用数も評価されると思ってた
引用稼ぐにはソース公開はいいと思うけどなあ
2020/01/04(土) 19:37:44.95ID:mrNm0sQkF
ただし、
数字を十進法ではなく二進法で表せば1+1=10である。

他に、
1+1の『+』の加算の定義を『×』乗算の定義と入れ換えれば1+1=1である。

あるいは、
2という数字の定義を5と入れ換えれば1+1=5である。
2020/01/04(土) 19:39:43.23ID:mrNm0sQkF
加算の定義、数字の定義、数の定義を全て正しいものと仮定して始めて1+1は2となる。
2020/01/04(土) 19:41:39.97ID:mrNm0sQkF
ここの人は是非、自分のやっていることが前者で進めているのか、後者で進めていることなのか、よく考えてほしい
2020/01/04(土) 19:47:32.97ID:mrNm0sQkF
帰納法で得られた結果はあくまでも推定の域を出ない。

例え10回やって10回ともいい結果が出たとしても11回目に100%よい結果が出るかどうかは保証はない。
2020/01/04(土) 19:50:57.56ID:mrNm0sQkF
他方、演繹法は絶対的・普遍的な解を得ることができる。

これは非常に強烈なロジックなのだが、残念ながら日本ではこのアプローチを重視する人材が非常に少ない、というかいない
875デフォルトの名無しさん (ワッチョイ 9fb3-Hx/H [125.173.52.11])
垢版 |
2020/01/04(土) 19:52:14.75ID:CQ4m6M+L0
公衆無線LANで何寒いこと書いてるねん
876デフォルトの名無しさん (ワッチョイ 3bdd-BJMr [122.249.73.11])
垢版 |
2020/01/04(土) 20:19:20.64ID:ENDwxYLV0
ねー
文系出身のワナビーだろう

直感はどちらに分類されるのだろうね
2020/01/04(土) 20:27:40.67ID:dVmT9Zd40
>>869
そういえばそんなのもあったが
だいたいはお友達w同士で相互に引用しあって一蓮托生というね もうね
2020/01/04(土) 20:43:29.49ID:m+tPynmQ0
>>876
帰納法
2020/01/04(土) 20:52:46.32ID:YBqf4hfGa
日本での研究者の評価というと、真っ先に思い浮かぶのが科研費
過去の論文の数を基に、今後の計画を立てて予算申請する
一応審査しているのは専門家
専門性の高い論文を書いているかどうかが評価の基準
情報公開は・・・評価されるのかな?
そういうのを書く項目がないような気がする
2020/01/04(土) 21:56:53.64ID:xLbjEwkrM
君たちG検定はとるの?
2020/01/04(土) 22:06:24.08ID:NL29rqkc0
>>856
そんなものはない。
あってもVC次元使った奴とかバウンドが実際のデータ数よりも圧倒的に多いものしか計算できなくて
全く使い物にならん。
テストデータのサンプル数も何回か試して精度が安定する個数に設定するってのが現状。

この仕事、やってない奴ほど理論でなんとかなると思ってんだよな。
そこが実際とのギャップになってめんどくさい議論を増やしてる。
2020/01/04(土) 22:16:11.54ID:Eq0fd+t90
相対性理論は帰納法で導かれたよ
2020/01/04(土) 22:31:38.39ID:m+tPynmQ0
相対性理論は
仮説推定⇒演繹法による検証⇒ローレンツ変換不変の前提のもとで100%正しい
2020/01/04(土) 22:34:59.55ID:m+tPynmQ0
仮説推定の検証が実験のみか理論かで分かれる
2020/01/04(土) 22:36:39.92ID:m+tPynmQ0
>>881
それはお前及びお前が出会ってきた人間がヘボいだけ
2020/01/04(土) 22:39:40.66ID:NL29rqkc0
>>885
そうだな。お前みたいなヘボイ奴ばっか相手にしてる。
2020/01/04(土) 22:41:53.90ID:Eq0fd+t90
例えば一般相対性理論は慣性質量と重力質量は等価である等の
小さな原理から大きな理論を構築した帰納的思考によるもの
2020/01/04(土) 22:45:01.46ID:m+tPynmQ0
だから仮説推定の後すぐに演繹法による検証をやってるのがアインシュタイン
2020/01/04(土) 22:46:21.57ID:m+tPynmQ0
実験やってないんだよ
2020/01/04(土) 23:11:36.37ID:Eq0fd+t90
実験したとかしないとか関係ないし
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況