X



【統計分析】機械学習・データマイニング21

■ このスレッドは過去ログ倉庫に格納されています
0001デフォルトの名無しさん (アウアウウー Sa4f-YdG1)
垢版 |
2018/11/04(日) 14:34:36.02ID:W830XVm1a
機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング20
https://mevius.5ch.net/test/read.cgi/tech/1533635797/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured
0601デフォルトの名無しさん (アウアウイー Sae1-WTf5)
垢版 |
2018/12/25(火) 19:31:29.39ID:9cJ+8zKla
>>599
AIはG検定という試験があるんだ。
F検定の上を行っちゃうな。
0602数おたサラリー (ワッチョイ 9b8a-CDCs)
垢版 |
2018/12/25(火) 20:18:53.57ID:F04LiveA0
まあ言いたいのは未知のデータから相関を語れないという話ね>>584>>595

サンプリングが等間隔でなかったりするとy=t*sin(t)ですらフィットは難しい

場合によっては無相関と断言するやつすらいる
0607デフォルトの名無しさん (ワッチョイ 6523-mzLW)
垢版 |
2018/12/26(水) 00:45:12.92ID:OkeUn6N40
>>601
E検定「......」
0608デフォルトの名無しさん (JP 0H59-JAXu)
垢版 |
2018/12/26(水) 11:56:19.18ID:OoT7NWgvH
こういうどうでもいい検定が出てくると
この業界も終わりかなーって思う

理事長 松尾 豊  東京大学大学院工学系研究科 特任准教授
理事 井ア 武士  エヌビディア合同会社 エンタープライズ事業部長
江間 有沙  東京大学 政策ビジョン研究センター 特任講師
岡田 陽介  株式会社ABEJA 代表取締役CEO
岡谷 貴之  東北大学大学院 情報科学研究科 教授
尾形 哲也  早稲田大学基幹理工学部表現工学科 教授
川上 登福  株式会社IGPIビジネスアナリティクス&インテリジェンス 代表取締役CEO
草野 骼j  株式会社ブレインパッド 代表取締役会長
佐藤 聡   connectome.design株式会社 代表取締役社長
南野 充則  株式会社FiNC Technologies 代表取締役CTO
渡邉陽太郎  株式会社PKSHA Technology

ろくなメンバーいないじゃんw
0609デフォルトの名無しさん (ワッチョイ 3598-5YD5)
垢版 |
2018/12/26(水) 12:41:06.57ID:SKc2oSlY0
因果関係を見つけるために、何かのデータと何かのデータを
用意しなきゃならないが、時間は無限にあるわけじゃないし
データも集められるわけじゃない(例えばすでに破棄した過去のデータは分からない)ので

結局今は人間が関係ありそうなデータ、もしくは集めることが可能なデータを
持ってきて因果関係があるか?を検証する作業になってしまってる
「因果関係を見つける」のではなくて「因果関係があるか?」の検証になってしまっている。

そして因果関係がありそうと人間が判断するものはやっぱり因果関係があるわけで
人間が計算式作ってやってもそこそこ精度は出る。
未知の因果関係を見つけるのには相当時間がかかる。

つまり何が言いたいかというと、機械学習でメリットが有るかどうかは運次第だし
データに因果関係があるとわかっていても、それを集めるのには時間(コスト)がかかるので
機械学習やってビジネス的に儲けがでるかはトレードオフの問題に落ち着く
当たり前だけど銀の弾丸じゃないんだよね。

数年後には、宇宙の中から新しい星を探すように「因果関係があるもの」を探す人たちと
判明した因果関係に関係があるデータを集める人・販売する人たちに分かれるだろう
0614デフォルトの名無しさん (ワッチョイ 3598-5YD5)
垢版 |
2018/12/26(水) 16:53:49.40ID:SKc2oSlY0
>>613
それも製造品の形や重さが他と違っていたら不良ってことだろ?
でも物によっては形や重さが違っていても不良とは限らない。例えば料理とか。

人間がこの製品は形や重さが違うなら不良と考えるから、
形データ(つまり画像)や重量を入力としてるわけで
結局それは人間が因果関係を判断して入力データとして与えてる

機械学習でどれくらい違っていれば不良とみなすかを機械で判定できると思うが
人間が○%と値を入力してもそれほど大きな違いは出ないだろう
それに最初は人間が、これはOK、これはNGって判断する必要があるだろ?

まあOK、NGと判断する作業は今も人間がやっているわけで、
機械学習のための追加のデータ取りのコストはかからないと思うが
なんていうか、そんだけだよねーって感じなんだよ

新しいものを作るっていうよりか、単に精度を上げるための
データ入力者になった感じで、面白みがない。
技術は完成されいて、あとは道具を使うだけ
0618デフォルトの名無しさん (オッペケ Sr61-Mh38)
垢版 |
2018/12/26(水) 17:59:01.32ID:4yVGae5ar
最適化の対象としてうまく数式に落とし込むのはまだ人間の役目だよね
0620デフォルトの名無しさん (JP 0H2b-6UAB)
垢版 |
2018/12/26(水) 18:31:46.80ID:aOoIS3cHH
kaggleのタイタニックで勉強していざ他のもやってみようと思ったんだけど
カーネルでほかの人の見ないことには何も手が動かせない

どこに着目してどういう特徴量作ったらいい、どのパラメータでどんなestimatorを使えばいい
そういうのがまったく思い浮かばない

生データ渡されてまずどこから手を付けるみたいな方法論勉強する方法orいい参考書ないですか
こういう処理をするにはこういうコードとかそういう本はいくらでもあるんだけど
0621デフォルトの名無しさん (トンモー MM59-Kky7)
垢版 |
2018/12/26(水) 19:10:34.38ID:zlBAVDN8M
>>608
見事に馬鹿ばかりだな。
資格ビジネス狙いのクズ朝鮮人ばっかw
0622デフォルトの名無しさん (ササクッテロレ Sp61-YjqT)
垢版 |
2018/12/26(水) 19:21:06.94ID:8+a035szp
>>614
別にあなたが面白いと思わなくても
役に立つならそれを使う人には価値がある

あなたはあなたが面白いと思うものをやれば良い
他のことがあなたにとって面白くなくても
あなたがやる事は変わりない
他にケチつけずに好きにすれば良い
0623デフォルトの名無しさん (ササクッテロレ Sp61-giVT)
垢版 |
2018/12/26(水) 19:24:45.31ID:Wyt7kWB4p
>>620
与えられた課題に対して解決方法が知りたいなら、キーワードはモデリングかな
ある程度考え方の基礎がないとモデリングは難しい

勉強方法としてはKaggleとかの方法をそのまま別の課題に適用して、自分の引き出しを増やすことから始める

ある程度こなせるようになって、それでもまだ足りないなら原理を学ぶ必要があるので、統計学や時系列分析、ベイズモデリングのような入門書を読む

高度な数学まで勉強する必要はないけど、自分の言葉で説明できるくらいまでは理解と経験が必要
0633デフォルトの名無しさん (ワッチョイ 3598-5YD5)
垢版 |
2018/12/26(水) 22:20:05.30ID:npb9YBls0
>>622
役に立たないなんて言ってないよ。

ソートライブラリみたいなもんだなってこと
ソートしたいときにライブラリ使っておしまい

ソートそのものについて研究することはないなぁってこと
0638デフォルトの名無しさん (ラクペッ MMdd-UqqQ)
垢版 |
2018/12/27(木) 00:24:45.59ID:Nnsyug5pM
E検定は内容としては演習問題も含めてコーセラのディープラーニングコースに似てるかな
どうしても日本語で勉強したい人くらいしか需要無さそう
0643デフォルトの名無しさん (ワッチョイ 0517-nqzs)
垢版 |
2018/12/27(木) 08:42:27.41ID:dq01g3G80
>>642
参考書を忘れていました

月並みだけどPRMLは良い本ですのでKaggle等の課題と並行して読むのがよいと思います
日本語の訳本が出ていて「パターン認識と機械学習」という本です
0644デフォルトの名無しさん (ブーイモ MMde-frri)
垢版 |
2018/12/27(木) 09:36:37.47ID:X1PNXoe/M
エロ系のデータセットってある?
モザイク消しを深層学習で出来るか試してみたい。
0648デフォルトの名無しさん (ロソーン FFa1-Oscs)
垢版 |
2018/12/27(木) 16:19:30.67ID:X03Q+yv7F
たしかにモザイクから復元するのに利用してる先行研究はあったはず
0649デフォルトの名無しさん (ブーイモ MMde-frri)
垢版 |
2018/12/27(木) 16:29:25.56ID:X1PNXoe/M
データセット無いかー。今考えてる方法は
1.洋物無修正動画をVottでマンコチンコトレーニングデータを作る。
2.yoloとかで自動モザイク装置作ってモザイクを入力としたDCGANでトレーニング
3.モザイク認識ソフトを作ってモザイクを切り抜き、切抜き箇所を2.にかけて出力を元画像と合成

GLCICは学習コストが凄そうなのでできれば回避したい。他に良いアイデアあったら教えて
0660デフォルトの名無しさん (ワッチョイ 21d2-frri)
垢版 |
2018/12/27(木) 23:20:01.45ID:JdZkwcys0
>>658
モザイクの向こう側にある真実を探求するつもりはないよ。違和感なくモザイクが消えればそれで良いと思ってる。
極端な話、機械が妄想して全員綺麗なマンコになってもいいと思う。
0661デフォルトの名無しさん (ワッチョイ 95b3-rWdN)
垢版 |
2018/12/27(木) 23:57:27.63ID:XnkO3CS60
>>658
モザイクかけた時点で情報は失われているから元通りに復元するのは不可能
想像でそれらしく補うしか無い
0664デフォルトの名無しさん (ワッチョイ 7d98-4fyn)
垢版 |
2018/12/28(金) 03:23:06.50ID:Nt5XO8IQ0
本物そっくりのCGでもわいせつ物扱いになったし
そのうちモザイクも違法になるかもしれんね

画像から欠けた部分を補完する技術はあるし
どうせそう遠くない未来に、動画の欠けた部分を
補完する技術も一般的になるでしょ?

「欠けた部分」を「モザイクパターンになってる部分」に置き換えるのも
そう難しいことじゃないだろうし、モザイクの部分を本物そっくりのCGに
リアルタイムに置き換える。その時に色情報を使用すればよりリアルになる

結局の所補完した画像はCGなのだが、CGがわいせつ物扱いになるしなぁ
より本物に近いCGを作れるモザイクから違法になって、
最後には黒塗りもアウトになるかもな。

ん?その流れで行くと、水着や下着もアウトかもしれん
今の技術で裸に見える画像(水玉コラ)を補完したらどうなるんだろうか?
流石に誰かやってるよな?
0665デフォルトの名無しさん (ワッチョイ 7d98-4fyn)
垢版 |
2018/12/28(金) 03:30:13.25ID:Nt5XO8IQ0
よりリアルな補完画像画像(よーするにコラだなw)が
誰でも簡単に作れるようになったら、誰でもわいせつ物が作れると同時に
逆にリベンジポルノ流出とかでもあれはコラだって
言い張れるようになるかもしれないな
写真(そのうち動画)がなんの証拠にもならない時代
0666デフォルトの名無しさん (ワッチョイ 7d98-4fyn)
垢版 |
2018/12/28(金) 03:43:57.02ID:Nt5XO8IQ0
>>655
モザイクから元の顔に戻せるように見えてるけど
似顔絵捜査員とどちらがすごいんだろうかね

情報量自体は被害者の記憶を言葉にしたほうが少ないと思う
たったあれだけで、それなりの精度をだせるなら
訓練すればモザイクから元の顔を書く
モザイク捜査員が生まれるかもしれない!
0667デフォルトの名無しさん (アウアウイー Sa35-J3Xo)
垢版 |
2018/12/28(金) 07:24:47.70ID:jk6Z9ErNa
>>665
暗号化しなくても、モザイクでアップしておいて
あとは利用者が勝手にどうぞ。

なんてのが出来ちゃうわけだ。
0668デフォルトの名無しさん (ワッチョイ 7d98-4fyn)
垢版 |
2018/12/28(金) 07:40:23.31ID:Nt5XO8IQ0
機械学習とはもう無関係なくなってきたが、モザイクどころかなにもないところから
コンピュータが人工知能で作り出した本物そっくりなCGはわいせつ物になるんだろうか?
0670デフォルトの名無しさん (ワッチョイ 7d98-4fyn)
垢版 |
2018/12/28(金) 07:47:16.82ID:Nt5XO8IQ0
猥褻物判別AIは、生成されたCGに対して反応するわけだから
そのCGを生成するための元データ(=モザイク画像)を配布したら・・・?

未来もまだまだ、法律の抜け道と無理やりな法解釈のイタチごっこが続きそうだな
0671デフォルトの名無しさん (アウアウイー Sa35-J3Xo)
垢版 |
2018/12/28(金) 08:24:37.00ID:jk6Z9ErNa
>>668
本物そっくりだから、本物と区別できない
だから、本物かもしれない
よってわいせつ物

かな〜
0672デフォルトの名無しさん (ワッチョイ 2124-SF4R)
垢版 |
2018/12/28(金) 09:52:24.03ID:Wn6dMni60
>>658
著作権上は機械学習は人間の道具として扱われる
でも機械学習のコードを丸パクリした場合はほとんど定義されていない
この辺りしっかり決めておかないと非常にマズイ事になる気がする
0676デフォルトの名無しさん (ワッチョイ 0523-+kHz)
垢版 |
2018/12/28(金) 11:28:32.32ID:dG0NGNXL0
児ポだって大多数の人は興奮しないから猥褻物に該当するかどうかみたいな議論あるしな
0678デフォルトの名無しさん (ラクペッ MMdd-+kHz)
垢版 |
2018/12/28(金) 11:40:38.32ID:Xa1MxpzYM
Winnyやマイニングスクリプトで検挙される国ですし
0680デフォルトの名無しさん (ワッチョイ 2124-SF4R)
垢版 |
2018/12/28(金) 12:06:41.23ID:Wn6dMni60
winnyは開発者が捕まるのがありえなかったよなー
マイニングスクリプトはモバイルはマジでやめて欲しいぞ。電池無くなる
PCで一部リソース使うぐらいならいいけど
0681デフォルトの名無しさん (アウウィフ FF39-Oscs)
垢版 |
2018/12/28(金) 12:10:54.40ID:sicn3fFVF
名前忘れたけど反転系モザイク解除ソフトも捕まってたな
あれもソフト作る側には問題無いのに
0684デフォルトの名無しさん (ブーイモ MM99-frri)
垢版 |
2018/12/28(金) 12:40:59.01ID:3yiiX6rlM
Winnyの件を考えると、モザイクを消す学習済みモデルを配布するだけで逮捕されそうだよね。
でもまあ学習前のソース配布は問題ない筈だから
(類似や同じネットワークモデルを利用した他のソフトも違法になるため)
学習用無修正画像を自前で用意できればなんとかなりそうではある。
0685デフォルトの名無しさん (ワッチョイ 0523-+kHz)
垢版 |
2018/12/28(金) 12:50:57.52ID:dG0NGNXL0
何らかのサービスを提供する場合は海外鯖に置いていても運営元が日本にあると判例上アウトだよね
0686デフォルトの名無しさん (スフッ Sdfa-JcBT)
垢版 |
2018/12/28(金) 12:53:10.36ID:9fFTYmAmd
アルファ碁の深層学習の仕組みについて
わかりやすく教えて下さい。

従来のようにモンテカルロ木探索も使われているのはわかりますが
深層学習をどう利用しているのか、いまいちよくわかりません。
深層学習は、画像認識ならわかりますが
これをどう囲碁に利用しているのかイメージが出来ません。

この点をわかりやすく教えて下さい。
よろしくお願いします。
0687デフォルトの名無しさん (JP 0H7e-AIgs)
垢版 |
2018/12/28(金) 13:46:50.39ID:yS/2qGZjH
kernel読んでたらデータの標準化って出てきたんだけどこれやってもいいもんなんですかね
たとえば[1, 2, 3, 4, 5]だと[-2, -1, 0, -1, -2] / √2になるそうで
でもこれだと例えば最後の要素が最初の要素より4大きいっていう情報は欠落するじゃないですか
データの絶対値って重要じゃないんですかね
0688デフォルトの名無しさん (アウウィフ FF39-Oscs)
垢版 |
2018/12/28(金) 14:05:02.53ID:sicn3fFVF
2乗して足すから問題ないって感じか
0690デフォルトの名無しさん (ワッチョイ 95b3-rWdN)
垢版 |
2018/12/28(金) 14:09:37.53ID:KXx45DYL0
それは標準化の仕方が間違ってる
[-2, -1, 0, 1, 2]/√2
が正しいから大小関係は残る
0691デフォルトの名無しさん (アウアウカー Sa4d-uRxS)
垢版 |
2018/12/28(金) 15:15:52.25ID:wGEI6iLia
>>687
よくある標準化は学習データを平均=0、分散=1にしてその時に使った係数を残しておいてテストデータにも適用する
分散を変える以上は差の絶対値が変わるのは仕方ないが同じ係数をテストデータに使うのが重要で、結局同じ比率で調整されるので問題はない
0692デフォルトの名無しさん (ワッチョイ 7d98-4fyn)
垢版 |
2018/12/28(金) 15:43:33.87ID:Nt5XO8IQ0
>>680
> winnyは開発者が捕まるのがありえなかったよなー
winnyは開発者は、考え方が厨二だったからなぁ

この世界は腐っている。一度滅びなければいけない。
新世界を作るために、私は滅びの道具を作った。
だからな。


世界を良くする道具を作ればいいのに、
なぜか滅ぼす道具を作って「お前らあとは頑張れ」だもんなぁ。
あんなんだからWinnyは何も変えられなかった。
0695デフォルトの名無しさん (ワッチョイ dad2-CP3A)
垢版 |
2018/12/28(金) 17:31:39.09ID:tfE2tijX0
生きてたら仮想通貨やってただろうな
まああれも結局マネロン用途だろうからまともではないか
0700デフォルトの名無しさん (アウアウイー Sa35-J3Xo)
垢版 |
2018/12/28(金) 18:47:51.76ID:3Bc3qTdBa
ここに書いてある中で、一つだけ賛成できないのは
データ(分析対象になるデータ)の件。
それこそ、生の形でデータを受取り分析者側で加工から
やることが私は必要だと思っている。

そもそも顧客のデータを信じるところから始めてはいけない。
今は、ネットのデータだったり、データが集まりやすいし
さらにデータベース化されているケースが多い。

それに甘んじたまま分析に入ろうとする人が多いのは
私は疑問。
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況