【統計分析】機械学習・データマイニング24

■ このスレッドは過去ログ倉庫に格納されています
1デフォルトの名無しさん (ワッチョイ 8b01-ZQWL [60.65.176.121])
垢版 |
2019/05/01(水) 10:39:45.57ID:Wg+J+pQH0
機械学習とデータマイニングについて語れ若人

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
Machine Learningを用いた論文一覧2018
https://shiropen.com/seamless/machine-learning/2018
2017年のディープラーニング論文100選
https://qiita.com/sakaiakira/items/f225b670bea6d851c7ea
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング23
https://mevius.5ch.net/test/read.cgi/tech/1551352040/
VIPQ2_EXTDAT: default:vvvvvv:1000:512:----: EXT was configured
2019/06/08(土) 16:32:47.46ID:CckI98TW0
>>639
こういうプログラムを書いたことのない馬鹿ばっかり
2019/06/08(土) 16:50:05.05ID:wPg0m4E00
>>658
こればっかりはもう、本当に情けない話だが事実だ
研究時間が取れるのはせいぜい准教授までだ

優秀な弟子を育てるためのフレームワークを組むのが彼の仕事だと私は思うが、責めるべきはそこじゃないかね
2019/06/08(土) 19:28:31.58ID:dgEPQa3n0
Geoffrey Hintonはlast authorが多いけどfirst authorが今でもある

一方、松尾は無い
松尾の研究室からでる論文は東大のわりにショボい

誰の意向か分からんが
日本でのai広報担当ポジを得てる
2019/06/08(土) 19:49:27.00ID:XbfNvLSpp
>>661
First Authorについては70歳を超えて学内事務など皆無の爺ちゃんと比較するのはフェアではないな
比較するならLeCunだろう

それより二つ目の件がむしろ問題だな
良質な論文を量産できる環境構築を早急に行うべきだ
東大はとにかく学生指導を甘く考えている
2019/06/08(土) 20:53:36.86ID:JxaHk6L10
日本でAIで金引っ張ってくるのが上手いやつは詐欺師しか見たことない。
2019/06/08(土) 22:09:40.78ID:dgEPQa3n0
>>662
松尾研がしょぼいのは
環境がしょぼいからじゃないだろ

あれで環境がしょぼいなら
東大より下の研究室はショボくて当然ということになる

松尾はnvidiaやベンチャーとも組んでて
あれは環境のせいじゃない
2019/06/08(土) 22:28:05.56ID:UWafBj2Ca
>>663
そいつらのせいで第三次AIブームも終わりそうだしな
データがない奴らが騒ぎ立てて結果出ませんってそりゃそうだろうと
2019/06/08(土) 22:52:51.14ID:wPg0m4E00
>>664
環境とはハードウェアがすごいとか予算が潤沢とか意味じゃない
667デフォルトの名無しさん (トンモー MM95-E31s [210.142.95.90])
垢版 |
2019/06/09(日) 01:10:28.23ID:fjoZT5gcM
>>662
松尾自身が論文書くことを捨てて
マスコミに出て有頂天なんだよ
ただの馬鹿だろ?
2019/06/09(日) 01:39:02.58ID:iJmQ5mgDa
金儲けも大事なのは事実だけど常に最優先事項であるとは限らないのにこんなこと言ってるしな

ディープラーニングは儲けてなんぼ! エンドユーザの付加価値を考えろ!松尾豊氏
http://ainow.ai/2019/06/08/171682/
669デフォルトの名無しさん (トンモー MM95-E31s [210.142.95.90])
垢版 |
2019/06/09(日) 01:46:57.58ID:fjoZT5gcM
> ディープラーニングは事例は増えているがビジネスになっていない

そりゃそうだ.
アホ学者どもがワンサカ群がってきて
無理矢理事例を作ってる。

実は表に出ないだけで
すごくビジネスになってる。
金も動いてる。

今の景気を支えてるのはAIビジネス
だからね。
2019/06/09(日) 02:08:43.27ID:w6PGXrHH0
ビジネスになってないのはすごく感じる
TensorFlowのサンプルをコピーしただけの
監視カメラの画像認識サービスの多さは酷い
こんなのを売り物にしようとしてるのは詐欺に近い
2019/06/09(日) 09:26:20.21ID:NAUdcA9m0
監視カメラ関連で内製する求人もここ数ヶ月で3件は見たよ。
2019/06/09(日) 09:26:57.56ID:/FZVYwra0
だって品質あげても苦労が多いだけで給料上がらないじゃん。
下手したら更に安い金で更に工数のかかる精度を要求されるようになるし。
査定精度の低いところがこういうことに手を出すのがそもそも間違いなんだよ。
2019/06/09(日) 09:33:54.75ID:NAUdcA9m0
要件定義怪しそうw
従来型ITって仕事でも要件定義怪しいの沢山あるもんね
2019/06/09(日) 10:08:18.40ID:/FZVYwra0
従来のSIer的な要件定義は基本無理。
だから機械学習を本番運用するのは難しいんだよ。
精度策定で結局嫌になってアリバイ作業に徹するようになる人は本当に多い。
2019/06/09(日) 13:33:10.54ID:w6PGXrHH0
精度が要件になってたらアウトだしな
やってみないとわからないし
一回でも下回ったらアウトなのか
精度でなかったらどうするのか
ビジネスになる訳がない
2019/06/09(日) 13:55:38.89ID:xN+bC573a
機械学習に限らず特にIT業界においては「作ったものを売って終わり」というタイプのビジネスは確実に減少を続ける
とは言え、継続的に開発を続ける形式の契約を他社と結ぶのは面倒なので大企業でも内製が増えている
これまで大企業で内製があまり行われなかったのは「IT=社内システム開発」で一旦完成すれば開発要員はほぼ不要になるので正規雇用などできなかったから
今はむしろ「IT=本業」なので常に案件が存在するので直接雇用してあれもこれもやらせた方が効率的となる
だから従来式のSIerが今のような規模では存続不可能と散々言われている
2019/06/09(日) 14:31:52.84ID:iQc3/8+U0
>>651
>>実際問題信頼できる統計計算なんて回帰分析ぐらいのもので

これすんごいそう思う。

なので、この分野で日本はまだきのこれるんじゃないかと妄想してる
2019/06/09(日) 14:42:15.14ID:xN+bC573a
回帰分析といってもモデルの選択肢を一般化線形モデルにまで広げてみれば山ほどの可能性があり、
その中でどういった実装を行うかは解析の経験値やドメイン知識に有無に大きく依存するわけで
「安定した実装」が何を指すかは不明確だけど、「この手順通りにやればOK」みたいなものを求めているならそんなものはない
679デフォルトの名無しさん (トンモー MM95-E31s [210.142.95.90])
垢版 |
2019/06/09(日) 15:28:50.25ID:fjoZT5gcM
ここで一般化線形モデルまで行くのか?
ちょっと極端すぎね?
2019/06/09(日) 16:06:14.14ID:z1WXn/lH0
>>676
まとめ
SI市場が無くなった
2019/06/09(日) 16:06:22.37ID:vzathb3ta
多くの人は単回帰や重回帰のことを指して回帰分析と呼ぶがこれらは一般化線形モデルの中で様々な条件を仮定したものにすぎない
もちろんそれらの仮定が分析対象にとって妥当なものなら何の問題もないが、最低限の数学や統計学が分からないと妥当性など判断できないはずなのに
そんな知識のない人が何となく単回帰・重回帰で直線・曲線を引いてみて何となくフィットしてるのを見せてドヤ顔している例が多い
2019/06/09(日) 17:11:03.41ID:/FZVYwra0
>回帰分析といってもモデルの選択肢を一般化線形モデルにまで広げてみれば山ほどの可能性があり、
>その中でどういった実装を行うかは解析の経験値やドメイン知識に有無に大きく依存するわけで
>「安定した実装」が何を指すかは不明確だけど、「この手順通りにやればOK」みたいなものを求めているならそんなものはない

こういうめんどくさい人が登場してあれこれ言うことも含めて安定しないので普通の回帰にしとけと。
2019/06/09(日) 17:52:27.15ID:yPvpM3IBa
統計モデルなら実データとどのくらい分布や分散が一致してるのか調べられる
2019/06/09(日) 19:19:45.77ID:vT6Mp8oIa
現実問題として回帰モデル以上のモデルを準備しても
過学習するだけだからな
2019/06/09(日) 19:28:50.93ID:kmadDgcNa
>>682
普通の回帰って何のことか分からないけど内部的に最小二乗近似してるなら誤差分布が正規分布でないのに使ったら明確に間違いだぞ
2019/06/09(日) 19:59:05.39ID:/FZVYwra0
そこまでノイズが複雑な場合、何やってもダメだろ。
2019/06/10(月) 01:05:22.06ID:fcJW0GWO0
>>685
誤差分布が正規分布ではない分布に従うモデルのことを一般化線形モデルと言います
ちなみに正規分布に従うものを一般線形モデルと言います
自由の女神ほどのナイス日本語訳まで行かなくてもいいが、もうちょい訳語考えろと言いたい
2019/06/10(月) 01:35:01.39ID:fcJW0GWO0
>>681
なんとなく単回帰・重回帰でドヤ顔する人と
一般化線形分析で謎のハイパーパラメータ持ち出してドヤ顔する人の区別がつきません
2019/06/10(月) 01:57:16.14ID:RiY8Pa+r0
回帰なんて今や面倒なこと考えずにニューラルネットにぶち込むだけだと思うんだが
2019/06/10(月) 02:18:48.96ID:eq86jRmO0
間違いだらけのことをどや顔で臆面なく言っちゃうのがこのスレのレベル
2019/06/10(月) 05:40:36.59ID:+XEUhSwt0
須山に修正してもらおう
692デフォルトの名無しさん (トンモー MM95-E31s [210.142.95.90])
垢版 |
2019/06/10(月) 06:12:15.29ID:3mQ7PTgOM
>>685
それ間違い

>>686
意味不明
693デフォルトの名無しさん (トンモー MM95-E31s [210.142.95.90])
垢版 |
2019/06/10(月) 06:13:50.37ID:3mQ7PTgOM
>>687
それも間違い
694デフォルトの名無しさん (トンモー MM95-E31s [210.142.95.90])
垢版 |
2019/06/10(月) 06:14:37.92ID:3mQ7PTgOM
>>688
こんなところで
聞いても無駄
2019/06/10(月) 07:03:46.89ID:fcJW0GWO0
>>689
そういう局面はあるだろうけど、本気でそう考えているなら恐ろしい
2019/06/10(月) 07:53:37.33ID:2I4+V8i80
ニューラルネットするなら回帰王♪
2019/06/10(月) 07:57:41.79ID:+XEUhSwt0
>>695
どっちでもよくね?
698デフォルトの名無しさん (ワイーワ2 FF3a-dZrz [103.5.142.233])
垢版 |
2019/06/10(月) 12:20:20.62ID:g6tidy/FF
別に回帰しかやってなくても
精度出てればそれでも良いと思うし
統計がなんでもかんでも悪いとは思わないが
それを「ブラックボックスだ」とか「信用出来ない」とか
「人間より優秀とは思えない」とか「責任誰がとるんだ」とか
言って欲しくないな
人間がやってそれ以上の精度出るのか?とか間違わないか?とかスピードは?とか
考えると「ブラックボックス(実際はそうじゃないが)」で良いと思う
699デフォルトの名無しさん (ワイーワ2 FF3a-dZrz [103.5.142.233])
垢版 |
2019/06/10(月) 12:21:40.70ID:g6tidy/FF
>>687
合衆国が一番の迷訳
2019/06/10(月) 12:30:18.47ID:QmI1edQr0
>>699
美国は?
701デフォルトの名無しさん (ワイーワ2 FF3a-dZrz [103.5.142.233])
垢版 |
2019/06/10(月) 12:52:27.52ID:g6tidy/FF
美国は文脈的に的外れだからどうでも良い

合州国じゃなくて合衆国を選んだのが迷訳っていう意味だし
2019/06/10(月) 13:35:48.80ID:OXwxgYdVH
>>698
アカデミックの人かな?
ビジネスの領域ではそんなこと言ってられないのよ
2019/06/10(月) 19:46:57.52ID:rY9Mn9x+0
機械学習初心者なのですがディープラーニング以外の機械学習って覚える必要ありますか?手法が無限にありすぎて覚えられないです。
704デフォルトの名無しさん (アウアウクー MM92-nxHx [36.11.225.209])
垢版 |
2019/06/10(月) 19:47:28.66ID:zRTuBs9kM
ビジネスだけど?
2019/06/10(月) 20:15:35.50ID:laqTwvRyp
>>703
何がやりたいかによるかな

覚えるという言葉から察するに応用したいんだと思うけどkeras使ってfit回すのと、scikit-learn使ってfit回すのでは、ソースコードは殆ど同じように思う

そういう意味では、やりたい事と手法のマッピングをすることに意味があって、その手法がDeep Learningだろうがそうでなかろうが、あまり意味がないと思う

統計モデリングは少し腰を落ち着かせて勉強しないと身につかないので、世の中のデータサイエンティストでも活用できている人は少ないのではないかと思う
2019/06/10(月) 21:09:57.64ID:RiY8Pa+r0
>>703
今のところ必要ないと思う
今一番成果が出てる手法だけを使うべき
2019/06/10(月) 22:36:21.02ID:EQVv/EW6a
統計モデルについてはこの動画の説明が分かりやすいからこれ見ろ
https://youtu.be/wO8jd0z5YRQ
2019/06/10(月) 22:39:30.02ID:cl88emhA0
赤本読めよ
709デフォルトの名無しさん (アウアウウー Sa23-211C [106.180.11.238])
垢版 |
2019/06/10(月) 23:11:32.89ID:+ahrTwMVa
>>703
実用を考えるとディープラーニングができるほど綺麗なデータが大量に使えることってあまりないからむしろ他の機械学習手法の方を知っていると強い
2019/06/10(月) 23:29:42.63ID:A95SX7z40
>500
711デフォルトの名無しさん (トンモー MM95-E31s [210.142.95.107])
垢版 |
2019/06/11(火) 02:42:37.45ID:ZQzbuTIBM
>>709
禿同

>>706
馬鹿
2019/06/11(火) 18:09:22.34ID:6NZpwaykM
機械学習って楽しいですか?
2019/06/11(火) 18:36:41.34ID:SdCAq12yd
楽しくはない。
機械学習はあくまでもサブ技術。
メインに専攻すべきではない。
714デフォルトの名無しさん (アウアウクー MM92-nxHx [36.11.224.188])
垢版 |
2019/06/11(火) 18:48:27.85ID:QClOim5zM
ひとによるだろ
そんなこと聞いてどーすんの?
715デフォルトの名無しさん (トンモー MM95-E31s [210.142.95.107])
垢版 |
2019/06/11(火) 19:01:09.34ID:ZQzbuTIBM
>>712
大好き!楽しい!
統計学の勉強も楽しい!
現在、統計学の応用の5本目の
論文書いてるところ。
ただ、仕事から帰って書いてるだから
時間足りなさすぎ!
2019/06/11(火) 19:39:18.49ID:XL/fn5z60
という夢をみたのであった
2019/06/11(火) 19:40:07.84ID:XL/fn5z60
嫉妬野郎でござった
2019/06/11(火) 19:44:25.65ID:ko492/aS0
そろそろ論文もAIが書くよ
てか生成系のモデル悪用の将来はいかに
2019/06/11(火) 19:46:19.65ID:rt/UvHAD0
論文はAIが書き、人間はアノテーション作業に明け暮れるのであった。
2019/06/11(火) 21:18:16.47ID:tg9Aa7Nc0
アノテーションって転移学習とかで自動化出来そうで出来ないな
2019/06/12(水) 05:09:56.24ID:fMVFjy++0
文章生成系を生成系というと怒る人がいる
2019/06/12(水) 08:31:05.93ID:fMVFjy++0
ソフトバンクの社外取締役っていくらもらえるんだろう。。。
1億円くらい?
723デフォルトの名無しさん (トンモー MM95-E31s [210.142.95.107])
垢版 |
2019/06/12(水) 08:34:59.71ID:+0pwNKukM
そん正義が連れてきたインド人役員は
100億円もらってたんだよね
ま、インド人だから高いのよ
中国人も高い
次は韓国人
奴隷は日本人

在日ならソフトバンクに
行けばいいよ
韓国名で応募してね!
仕事は通名(日本名)でOk
2019/06/12(水) 09:01:52.01ID:k5XrsZPH0
ソフトバンクの社内役員は基本的に1億円。孫正義も同額で全額被災者に寄付を続けている。
他にストックオプションなども有るだろうけど。
725デフォルトの名無しさん (アウアウクー MM92-nxHx [36.11.225.226])
垢版 |
2019/06/12(水) 09:26:41.42ID:3wcfQWS2M
松尾豊はソレで研究し金に
2019/06/12(水) 09:27:07.85ID:R4nJHUbN0
太陽光発電所を作ります(大法螺)
727デフォルトの名無しさん (トンモー MM95-E31s [210.142.95.80])
垢版 |
2019/06/12(水) 12:38:17.82ID:Wmv+D3tsM
>>724
へー本当に寄付してんだ
口先だけかと思ってたよ
で、どこに寄付してんの?
2019/06/12(水) 17:00:13.34ID:cGak2oaxp
>>726 たくさん作ってるじゃん。 サウジのやつは没になったけど。 国内では最大手に近いんじゃないのか?
2019/06/12(水) 19:12:40.23ID:yRay9q0a0
>>728
埼玉県にきまってるだろ
2019/06/12(水) 19:19:26.93ID:yRay9q0a0
計画はすべて尻つぼみ(笑)
2019/06/12(水) 19:24:11.00ID:yRay9q0a0
メガソーラーは1都道府県ごとに事業会社を設立して運営する考え。仮に20メガワット規模
の発電所が1年間稼働して売電すると、売上高は8億円規模になるという。国の規制で実現
していない発電した電力の全量買い取りや電力会社が持つ送電網との接続などが事業成立
の条件で課題は山積みだ。また発電事業とは別に埼玉県や神奈川県など地方自治体と
自然エネルギーの普及促進へ政策提言する団体「自然エネルギー協議会」も設立する。
2019/06/12(水) 22:40:31.71ID:BSq+d1KN0
機械学習って色んな手法あるけどみんなどれも覚えてるもんなの?
参考書やってて種類多すぎてどのケースでどれ使えばいいのかすら分からん
2019/06/12(水) 22:50:24.33ID:mQ+7g/y1d
手法を覚えるって、手法の何を覚えるんだ
2019/06/13(木) 09:44:39.89ID:g8amv0Zv0
>>732
手法を使えよ
2019/06/13(木) 11:41:27.81ID:qBC/YmXXM
名前と特徴、適正でしょ
2019/06/13(木) 12:04:23.81ID:bhCstcom0
Colaboratoryで巨大なデータセット扱うおすすめの方法を教えてください
自宅にwebサーバー建ててColaboratoryからwgetしてみたのですが、40Gあるのでアップだけで2時間、展開で1時間とか効率悪すぎて泣けてきます
Googleドライブ有料版をマウントして使ってみたのですが、何か1日の転送量最大値があるのかファイルが破損してしまいます
何かいいアイデアください!
737デフォルトの名無しさん (アウアウクー MM8f-cDow [36.11.224.174])
垢版 |
2019/06/13(木) 13:11:29.71ID:3Y+kP9XaM
回線が遅いって話?
速くすれば?
2019/06/13(木) 13:36:35.55ID:2T1UAjXOa
>>736
ファイルを分割して並列であげろ
2019/06/13(木) 14:39:13.04ID:bhCstcom0
>>737
まあ、回線も遅いですが他の方法でアップしなくてもいい方法とかないかなと
>>738
aria2てので並列ダウンロードしてみます!
2019/06/13(木) 18:38:00.31ID:bhCstcom0
うーん、Google側が細いのか最大で10MB/s位しかでないですね
741デフォルトの名無しさん (トンモー MMc3-h2kG [210.142.95.196])
垢版 |
2019/06/14(金) 00:22:53.60ID:Gaxv7IADM
当たり前じゃん?
どんだけの人がアクセスしとると思ってる?
742デフォルトの名無しさん (ワッチョイ 123e-27yU [149.54.201.210])
垢版 |
2019/06/14(金) 00:57:35.96ID:7+4XKUlI0
>>736
webサーバ建てる必要性ある?
2019/06/14(金) 10:18:19.40ID:2Fe7zdUeH
有料の環境つかえよ…
2019/06/14(金) 15:52:36.68ID:rI3r/fFD0
https://hazm.at/mox/machine-learning/computer-vision/classification/keras-provided-cnn/index.html
これって
loss 順調に下がって下がり止まって,
acc 順調に上がって上がりきっても
val_loss val_acc 安定していないけど最終的に収束してて驚く

この不安定な val_loss val_acc だけど学習続けたのは,
loss acc が安定していたからなのかな?
いつ収束するかわからないまま学習続けるとか狂気の沙汰な気がする・・・
745デフォルトの名無しさん (アウアウクー MM8f-cDow [36.11.224.178])
垢版 |
2019/06/14(金) 17:23:40.19ID:Wi4bG/9MM
何が言いたいのか
感想?
2019/06/14(金) 17:32:41.95ID:rI3r/fFD0
いや loss acc が安定していれば val_loss val_acc が不安定でも収束に向かうのか知りたい
発散してるように見えても大丈夫なのかなと
2019/06/14(金) 19:31:51.91ID:M8ulC+VI0
 大丈夫
748デフォルトの名無しさん (ワッチョイ ae66-cDow [183.77.216.198])
垢版 |
2019/06/15(土) 12:43:28.02ID:XjE03gEa0
gpt-2もマスクがバックにいるから
大袈裟に盛ってるんだろうなと思う
2019/06/15(土) 17:54:48.11ID:3j3poNkN0
低い精度で収束しちゃった場合はどうすればいいの?
750デフォルトの名無しさん (アウウィフ FF6b-jEB4 [106.171.76.104])
垢版 |
2019/06/15(土) 18:01:34.11ID:NPtNfhdjF
インポ
2019/06/15(土) 18:26:18.80ID:XjE03gEa0
何をもって低いと判断?
2019/06/15(土) 19:04:43.64ID:3j3poNkN0
valdation accuracyが0.3位で動かなくなっちゃった
753デフォルトの名無しさん (ワッチョイ c7ad-h2kG [124.144.197.178])
垢版 |
2019/06/15(土) 19:35:13.28ID:REOBTzcy0
他の方法を試す
データを増やす
2019/06/15(土) 20:09:59.21ID:3j3poNkN0
他の方法はモデルの変更とか、オプティマイザの変更とかでしょうか
データ量はもう増やせそうにないです
2019/06/15(土) 20:26:29.56ID:oNMgwv5d0
ノイズをのせる
2019/06/15(土) 21:19:32.93ID:XjE03gEa0
なんのタスクなの?
2019/06/15(土) 21:26:47.58ID:3j3poNkN0
画像分類です
650種類で、各200枚ほどの教師データです
2019/06/15(土) 21:52:22.51ID:U5fh38HZ0
指摘できる可能性が多過ぎて情報小出しにするのやめろ
■ このスレッドは過去ログ倉庫に格納されています
5ちゃんねるの広告が気に入らない場合は、こちらをクリックしてください。

ニューススポーツなんでも実況