【統計分析】機械学習・データマイニング21

2018/11/04(日) 14:34:36.02

機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング20
https://mevius.5ch.net/test/read.cgi/tech/1533635797/

VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured

2018/12/26(水) 12:41:06.57

因果関係を見つけるために、何かのデータと何かのデータを
用意しなきゃならないが、時間は無限にあるわけじゃないし
データも集められるわけじゃない（例えばすでに破棄した過去のデータは分からない）ので

結局今は人間が関係ありそうなデータ、もしくは集めることが可能なデータを
持ってきて因果関係があるか？を検証する作業になってしまってる
「因果関係を見つける」のではなくて「因果関係があるか？」の検証になってしまっている。

そして因果関係がありそうと人間が判断するものはやっぱり因果関係があるわけで
人間が計算式作ってやってもそこそこ精度は出る。
未知の因果関係を見つけるのには相当時間がかかる。

つまり何が言いたいかというと、機械学習でメリットが有るかどうかは運次第だし
データに因果関係があるとわかっていても、それを集めるのには時間（コスト）がかかるので
機械学習やってビジネス的に儲けがでるかはトレードオフの問題に落ち着く
当たり前だけど銀の弾丸じゃないんだよね。

数年後には、宇宙の中から新しい星を探すように「因果関係があるもの」を探す人たちと
判明した因果関係に関係があるデータを集める人・販売する人たちに分かれるだろう

2018/12/26(水) 14:13:38.56

G検定の資格とったらslack招待されるっての聞いたから
１１月に取ったんだけどslack招待されない…

誰か入った人いる？

2018/12/26(水) 14:23:26.02

>>608
現役で活躍してる人は忙しいから仕方ない

2018/12/26(水) 14:39:15.43

E検定って受験資格が教会認定の講座修了者で
ちょっと調べたらその講座が30万円とかなのな
インチキ臭え

2018/12/26(水) 15:08:06.25

>>609
機械学習の学習結果の妥当性証明に因果関係の証明が常に必要なわけではないぞ
よくある画像による製造品の不良判定なら因果関係なんて気にする必要ないし

2018/12/26(水) 16:53:49.40

>>613
それも製造品の形や重さが他と違っていたら不良ってことだろ？
でも物によっては形や重さが違っていても不良とは限らない。例えば料理とか。

人間がこの製品は形や重さが違うなら不良と考えるから、
形データ（つまり画像）や重量を入力としてるわけで
結局それは人間が因果関係を判断して入力データとして与えてる

機械学習でどれくらい違っていれば不良とみなすかを機械で判定できると思うが
人間が○%と値を入力してもそれほど大きな違いは出ないだろう
それに最初は人間が、これはOK、これはNGって判断する必要があるだろ？

まあOK、NGと判断する作業は今も人間がやっているわけで、
機械学習のための追加のデータ取りのコストはかからないと思うが
なんていうか、そんだけだよねーって感じなんだよ

新しいものを作るっていうよりか、単に精度を上げるための
データ入力者になった感じで、面白みがない。
技術は完成されいて、あとは道具を使うだけ

2018/12/26(水) 17:36:56.28

長いのでNG

2018/12/26(水) 17:43:13.93

こういうのはAIには難しそう
https://twitter.com/qpinemarch323/status/1077199404816187392
まだ東大の問題ωの方が解ける可能性あるわ
https://twitter.com/5chan_nel (5ch newer account)

2018/12/26(水) 17:48:11.82

>>616
迷路を解くアルゴリズムはとっくの昔にあるよ・・・

2018/12/26(水) 17:59:01.32

最適化の対象としてうまく数式に落とし込むのはまだ人間の役目だよね

2018/12/26(水) 18:30:37.18

>>608
使えなさそうｗ
ろくでもないラインナップだなｗ

**デフォルトの名無しさん** (JP 0H2b-6UAB) · 2018/12/26(水) 18:31:46.80

kaggleのタイタニックで勉強していざ他のもやってみようと思ったんだけど
カーネルでほかの人の見ないことには何も手が動かせない

どこに着目してどういう特徴量作ったらいい、どのパラメータでどんなestimatorを使えばいい
そういうのがまったく思い浮かばない

生データ渡されてまずどこから手を付けるみたいな方法論勉強する方法orいい参考書ないですか
こういう処理をするにはこういうコードとかそういう本はいくらでもあるんだけど

2018/12/26(水) 19:10:34.38

>>608
見事に馬鹿ばかりだな。
資格ビジネス狙いのクズ朝鮮人ばっかw

2018/12/26(水) 19:21:06.94

>>614
別にあなたが面白いと思わなくても
役に立つならそれを使う人には価値がある

あなたはあなたが面白いと思うものをやれば良い
他のことがあなたにとって面白くなくても
あなたがやる事は変わりない
他にケチつけずに好きにすれば良い

2018/12/26(水) 19:24:45.31

>>620
与えられた課題に対して解決方法が知りたいなら、キーワードはモデリングかな
ある程度考え方の基礎がないとモデリングは難しい

勉強方法としてはKaggleとかの方法をそのまま別の課題に適用して、自分の引き出しを増やすことから始める

ある程度こなせるようになって、それでもまだ足りないなら原理を学ぶ必要があるので、統計学や時系列分析、ベイズモデリングのような入門書を読む

高度な数学まで勉強する必要はないけど、自分の言葉で説明できるくらいまでは理解と経験が必要

**数おたサラリー** (ﾜｯﾁｮｲ 9b8a-CDCs) · 2018/12/26(水) 19:32:09.33

汎用的なものがほしいですね

**数おたサラリー** (ﾜｯﾁｮｲ 9b8a-CDCs) · 2018/12/26(水) 19:34:11.40

経験則なんて頼りたくないものです

2018/12/26(水) 19:57:53.25

kaggleで言うなら、機械学習のアルゴリズムより典型的なアルゴリズムの方が面白い

2018/12/26(水) 20:08:49.00

ババアｗ

2018/12/26(水) 20:09:17.18

都中

2018/12/26(水) 20:13:26.23

機械学習なんて正確性無いし、機会がやる必要ないよね

2018/12/26(水) 20:13:39.30

コンピュータがやる必要ない

**数おたサラリー** (ﾜｯﾁｮｲ 9b8a-CDCs) · 2018/12/26(水) 21:35:05.18

他人に説明しやすければ、メリットはデカイんだけどな

2018/12/26(水) 21:38:58.22

よし、それじゃあパウル君にやらせよう

2018/12/26(水) 22:20:05.30

>>622
役に立たないなんて言ってないよ。

ソートライブラリみたいなもんだなってこと
ソートしたいときにライブラリ使っておしまい

ソートそのものについて研究することはないなぁってこと

2018/12/26(水) 22:50:51.33

えっ

2018/12/26(水) 22:59:29.99

だってデータ集めて流せば終わりやし

2018/12/26(水) 23:24:32.11

資格商法っぽい気はしたがG検定取ったわ
松尾研究室有名だし、転職のときに使えそうだから

2018/12/26(水) 23:55:32.97

E資格もそうだけど、未経験者が意欲をアピールするのには使えるよ

2018/12/27(木) 00:24:45.59

E検定は内容としては演習問題も含めてコーセラのディープラーニングコースに似てるかな
どうしても日本語で勉強したい人くらいしか需要無さそう

2018/12/27(木) 00:51:11.66

機械学習とかつまんね
数学当たり前とか言ってるけど、他の情報科学だって必要だし、気取ってんじゃねえよ

2018/12/27(木) 03:42:08.33

NG検定

2018/12/27(木) 07:43:58.41

Neural Ordinary Differential Equationsってどうよ？

2018/12/27(木) 08:18:08.21

>>623
参考になりました。とりあえず量をこなすところからですか
しかしまいったなー明日プレゼンなのにろくなもん出せそうにないな

2018/12/27(木) 08:42:27.41

>>642
参考書を忘れていました

月並みだけどPRMLは良い本ですのでKaggle等の課題と並行して読むのがよいと思います
日本語の訳本が出ていて「パターン認識と機械学習」という本です

2018/12/27(木) 09:36:37.47

エロ系のデータセットってある？
モザイク消しを深層学習で出来るか試してみたい。

2018/12/27(木) 14:18:15.80

>>644
さすがにないだろ……聞いたことない
海外から無修正画像をスクレイピングしてきて自分でモザイク修正してデータセット作るしか

2018/12/27(木) 15:30:31.87

まず、自動でモザイクかけるAIを作るのかｗ

2018/12/27(木) 15:37:30.88

データセットが洋モノに偏ってあそこだけ洋っぽくなりそう

2018/12/27(木) 16:19:30.67

たしかにモザイクから復元するのに利用してる先行研究はあったはず

2018/12/27(木) 16:29:25.56

データセット無いかー。今考えてる方法は
1.洋物無修正動画をVottでマンコチンコトレーニングデータを作る。
2.yoloとかで自動モザイク装置作ってモザイクを入力としたDCGANでトレーニング
3.モザイク認識ソフトを作ってモザイクを切り抜き、切抜き箇所を2.にかけて出力を元画像と合成

GLCICは学習コストが凄そうなのでできれば回避したい。他に良いアイデアあったら教えて

2018/12/27(木) 16:41:22.77

>>644
アニメ系ならあるけど
https://github.com/deeppomf/DeepCreamPy

2018/12/27(木) 17:01:13.23

>>650
サンクス、Partial Convolutionsというのがあるのね。
これだと複数のモザイク箇所にも対応できそうだね。

2018/12/27(木) 17:11:03.99

もしかして、マンコチンコトレーニングしなくても無修正画像をPartial Convolutionsでトレーニングすれば良いだけだったりするか？
光が見えてきた気がする

2018/12/27(木) 17:21:24.33

マ●コが見えてきた気がする

2018/12/27(木) 17:24:50.95

機械に頼るな
心の目で見るんだ

2018/12/27(木) 17:25:28.71

https://gigazine.net/news/20170208-pixel-recursive-super-resolution/
https://gigazine.net/news/20171101-algorithm-low-resolution-images/
8*8ピクセルから復元出来る

2018/12/27(木) 17:35:48.30

モザイクの復元か

2018/12/27(木) 17:42:47.76

jpg時代のDejavu。エロは偉大なモチベだw

2018/12/27(木) 21:44:15.51

GANだと出来上がるのは機械の想像物にならんか？

2018/12/27(木) 23:00:37.63

>>658
人間の想像といい勝負
真実は誰も分からないのだから

2018/12/27(木) 23:20:01.45

>>658
モザイクの向こう側にある真実を探求するつもりはないよ。違和感なくモザイクが消えればそれで良いと思ってる。
極端な話、機械が妄想して全員綺麗なマンコになってもいいと思う。

2018/12/27(木) 23:57:27.63

>>658
モザイクかけた時点で情報は失われているから元通りに復元するのは不可能
想像でそれらしく補うしか無い

2018/12/28(金) 00:24:40.64

荒くなってはいるが黒塗りとかじゃないんだし完全に情報失われてるわけじゃないでしょ

2018/12/28(金) 03:00:23.93

エロAIはよ

2018/12/28(金) 03:23:06.50

本物そっくりのCGでもわいせつ物扱いになったし
そのうちモザイクも違法になるかもしれんね

画像から欠けた部分を補完する技術はあるし
どうせそう遠くない未来に、動画の欠けた部分を
補完する技術も一般的になるでしょ？

「欠けた部分」を「モザイクパターンになってる部分」に置き換えるのも
そう難しいことじゃないだろうし、モザイクの部分を本物そっくりのCGに
リアルタイムに置き換える。その時に色情報を使用すればよりリアルになる

結局の所補完した画像はCGなのだが、CGがわいせつ物扱いになるしなぁ
より本物に近いCGを作れるモザイクから違法になって、
最後には黒塗りもアウトになるかもな。

ん？その流れで行くと、水着や下着もアウトかもしれん
今の技術で裸に見える画像（水玉コラ）を補完したらどうなるんだろうか？
流石に誰かやってるよな？

2018/12/28(金) 03:30:13.25

よりリアルな補完画像画像（よーするにコラだなｗ）が
誰でも簡単に作れるようになったら、誰でもわいせつ物が作れると同時に
逆にリベンジポルノ流出とかでもあれはコラだって
言い張れるようになるかもしれないな
写真（そのうち動画）がなんの証拠にもならない時代

2018/12/28(金) 03:43:57.02

>>655
モザイクから元の顔に戻せるように見えてるけど
似顔絵捜査員とどちらがすごいんだろうかね

情報量自体は被害者の記憶を言葉にしたほうが少ないと思う
たったあれだけで、それなりの精度をだせるなら
訓練すればモザイクから元の顔を書く
モザイク捜査員が生まれるかもしれない！

2018/12/28(金) 07:24:47.70

>>665
暗号化しなくても、モザイクでアップしておいて
あとは利用者が勝手にどうぞ。

なんてのが出来ちゃうわけだ。

2018/12/28(金) 07:40:23.31

機械学習とはもう無関係なくなってきたが、モザイクどころかなにもないところから
コンピュータが人工知能で作り出した本物そっくりなCGはわいせつ物になるんだろうか？

2018/12/28(金) 07:42:55.28

猥褻物判別AIが判断しそう

2018/12/28(金) 07:47:16.82

猥褻物判別AIは、生成されたCGに対して反応するわけだから
そのCGを生成するための元データ（＝モザイク画像）を配布したら・・・？

未来もまだまだ、法律の抜け道と無理やりな法解釈のイタチごっこが続きそうだな

2018/12/28(金) 08:24:37.00

>>668
本物そっくりだから、本物と区別できない
だから、本物かもしれない
よってわいせつ物

かな～

2018/12/28(金) 09:52:24.03

>>658
著作権上は機械学習は人間の道具として扱われる
でも機械学習のコードを丸パクリした場合はほとんど定義されていない
この辺りしっかり決めておかないと非常にマズイ事になる気がする

2018/12/28(金) 09:55:24.02

漫画だってわいせつ物になりえるんだからＣＧもものによってはなるでしょう。

2018/12/28(金) 10:45:47.06

わいせつの３要件

徒に性欲を刺激・興奮させること
普通人の正常な性的羞恥心を害すること
善良な性的道義観念に反すること

2018/12/28(金) 10:55:29.66

ワイ動画見ただけじゃ興奮しないんだが。猥褻物なぞ無いｷﾘ

2018/12/28(金) 11:28:32.32

児ポだって大多数の人は興奮しないから猥褻物に該当するかどうかみたいな議論あるしな

2018/12/28(金) 11:35:03.92

猥褻物を描く機械じゃなくてモザイクを消す機械だから問題無いのでは？
消した画像を公開できる状態にしたら流石にダメだろうけど。

2018/12/28(金) 11:40:38.32

Winnyやマイニングスクリプトで検挙される国ですし

2018/12/28(金) 11:43:58.12

お前らエロの話題だと急に盛り上がるなw

2018/12/28(金) 12:06:41.23

winnyは開発者が捕まるのがありえなかったよなー
マイニングスクリプトはモバイルはマジでやめて欲しいぞ。電池無くなる
PCで一部リソース使うぐらいならいいけど

2018/12/28(金) 12:10:54.40

名前忘れたけど反転系モザイク解除ソフトも捕まってたな
あれもソフト作る側には問題無いのに

2018/12/28(金) 12:13:34.81

一般的なセキュリティの紹介記事書いただけでウイルス公開したことにされて有罪食らう国だし

2018/12/28(金) 12:25:06.68

海外の鯖に置けばいい

2018/12/28(金) 12:40:59.01

Winnyの件を考えると、モザイクを消す学習済みモデルを配布するだけで逮捕されそうだよね。
でもまあ学習前のソース配布は問題ない筈だから
(類似や同じネットワークモデルを利用した他のソフトも違法になるため)
学習用無修正画像を自前で用意できればなんとかなりそうではある。

2018/12/28(金) 12:50:57.52

何らかのサービスを提供する場合は海外鯖に置いていても運営元が日本にあると判例上アウトだよね

**デフォルトの名無しさん** (ｽﾌｯ Sdfa-JcBT) · 2018/12/28(金) 12:53:10.36

アルファ碁の深層学習の仕組みについて
わかりやすく教えて下さい。

従来のようにモンテカルロ木探索も使われているのはわかりますが
深層学習をどう利用しているのか、いまいちよくわかりません。
深層学習は、画像認識ならわかりますが
これをどう囲碁に利用しているのかイメージが出来ません。

この点をわかりやすく教えて下さい。
よろしくお願いします。

**デフォルトの名無しさん** (JP 0H7e-AIgs) · 2018/12/28(金) 13:46:50.39

kernel読んでたらデータの標準化って出てきたんだけどこれやってもいいもんなんですかね
たとえば[1, 2, 3, 4, 5]だと[-2, -1, 0, -1, -2] / √2になるそうで
でもこれだと例えば最後の要素が最初の要素より4大きいっていう情報は欠落するじゃないですか
データの絶対値って重要じゃないんですかね

2018/12/28(金) 14:05:02.53

2乗して足すから問題ないって感じか

2018/12/28(金) 14:08:52.59

>>685
DMMだかfc2の無修正エロサイトは日本語で紹介してるから日本扱いでautoって無茶な判例だった

2018/12/28(金) 14:09:37.53

それは標準化の仕方が間違ってる
[-2, -1, 0, 1, 2]/√2
が正しいから大小関係は残る

2018/12/28(金) 15:15:52.25

>>687
よくある標準化は学習データを平均＝0、分散＝1にしてその時に使った係数を残しておいてテストデータにも適用する
分散を変える以上は差の絶対値が変わるのは仕方ないが同じ係数をテストデータに使うのが重要で、結局同じ比率で調整されるので問題はない

2018/12/28(金) 15:43:33.87

>>680
> winnyは開発者が捕まるのがありえなかったよなー
winnyは開発者は、考え方が厨二だったからなぁ

この世界は腐っている。一度滅びなければいけない。
新世界を作るために、私は滅びの道具を作った。
だからな。

世界を良くする道具を作ればいいのに、
なぜか滅ぼす道具を作って「お前らあとは頑張れ」だもんなぁ。
あんなんだからWinnyは何も変えられなかった。

2018/12/28(金) 15:44:18.38

厨二っていうかサイコパスかな

2018/12/28(金) 16:06:37.31

まともな用途向けだと流行らなかったりして

2018/12/28(金) 17:31:39.09

生きてたら仮想通貨やってただろうな
まああれも結局マネロン用途だろうからまともではないか

2018/12/28(金) 17:38:25.10

ソフトイーサはいいところ攻めてるような。捕まらないような持って行き方は色々あったろうに

2018/12/28(金) 17:39:23.71

ソフトイーサは単なるVPNじゃん。OpenVPNと変わらない

2018/12/28(金) 18:19:41.45

このブログの人の勤め先ってNTTデータとかCTC？
http://biz-and-deep.hatenablog.com/entry/2018/03/01/001228

外資系じゃなそうだけど、
この頻度で新規AI案件を取ってきて回してる大企業って思い浮かばない

2018/12/28(金) 18:29:01.65

>>698
NTTデータじゃないと思う。こんな下流は回らない
にしても日本はIT関連の営業レベルが低すぎる。
*やばいエンジニア
以下は本気でヤバイ

2018/12/28(金) 18:47:51.76

ここに書いてある中で、一つだけ賛成できないのは
データ（分析対象になるデータ）の件。
それこそ、生の形でデータを受取り分析者側で加工から
やることが私は必要だと思っている。

そもそも顧客のデータを信じるところから始めてはいけない。
今は、ネットのデータだったり、データが集まりやすいし
さらにデータベース化されているケースが多い。

それに甘んじたまま分析に入ろうとする人が多いのは
私は疑問。

2018/12/28(金) 19:07:54.99

>>700
どれに対して言ってるのか知らないけど
機械学習はデータをコンピュータを使って高速に演算するものなんだから、
データが重要なのは当たり前だよ。

でも "機械学習" ではないけどね。俺が機械学習に興味が薄いのは
結局最後にはデータをどうするか？の話になってしまうのがわかってるから。
機械学習のアルゴリズムがーではなく、○○データを加えることで精度がー。とかいう流れになる

行き着く先は、データの売買ビジネスだよ。

今はデータが有るようで無いからね。
例えば売上データはあるが、あるのは売上データだけだ。コンビニとか
年齢層入力してる（してた？）が曖昧だし、ポイントカードで情報抜き取る必要があるが
全員抜き取れるわけじゃないし、別の店で買う場合もある（つまり売れるはずの商品がわからない）

精度をあげるためのデータがわかってる。だけどそれらを集めるには
他社と協力していろんなデータを集めて統合しなければいけない
個人情報の保護がある時点で難しいし、ライバル会社と協力なんかしないだろ？ｗ

となると第三者のデータ売買会社からデータを買うことになる。
その始まりの姿がTポイントカードだろう

2018/12/28(金) 19:13:51.37

>>700
> 今は、ネットのデータだったり、データが集まりやすいし
> さらにデータベース化されているケースが多い。

ぶっちゃけ無いよ。

データベースの用語風に言えば、今データベース化されてるのは
マスターデータ。機械学習で必要なのはトランザクションデータ
トランザクションデータはほとんどデータベース化されていない

せいぜい自社の過去のデータが、必要最小限だけ残ってる程度

大企業以外、統計的に役に立たない
（正確に言えば人間が予測した精度と大差ない）

2018/12/28(金) 19:17:04.43

＞年齢層入力
元コンビニバイトだけど、忙しいと全部「10-20代」を叩くのが当たり前。タバコと酒でエラー出るからな
忙し店は若者向けで入力してる可能性が高い、というか当たり前

2018/12/28(金) 19:22:49.32

>>701

そういう話をしたわけじゃないんだよね。
残念ながらデータは足りなくてあたりまえだから。

2018/12/28(金) 19:24:30.41

>>703
そうですね。
その問題はもう25年前から出てきている話題

2018/12/28(金) 19:26:13.36

>>703
そうそう。信用できる過去のデータは少ない。
そういう意味でも「今はデータが有るようで無い」

データが間違ってるんだから、そこから学習しても間違った答えになる
まあ結局は確率でしか答えが出ないんだから、
ある程度は正解するんだけどねｗ

で、精度をあげようとすると、データの質がーって話になって
正しいデータを入力するよう徹底してくださいとか、
修正できるなら修正してくださいとか（例えば明らかなタイポとかなら修正できる）
そういう話に行き着くので、つまらねぇなぁと

2018/12/28(金) 19:27:47.85

>>706
そうなんです。
それを知るためには、まず本当の生データを分析するところから
はじめないと、ならないんですよ。

2018/12/28(金) 19:31:46.09

>>702
＞大企業以外、統計的に役に立たない
＞（正確に言えば人間が予測した精度と大差ない）

それ自体の分析から始めないとあかんのよ
それを使えるようにしてゆくのが仕事