【統計分析】機械学習・データマイニング21
■ このスレッドは過去ログ倉庫に格納されています
機械学習とデータマイニングについて何でもいいので語れ若人
※ワッチョイだよん
次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね
■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76
■前スレ
【統計分析】機械学習・データマイニング20
https://mevius.5ch.net/test/read.cgi/tech/1533635797/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured >>599
AIはG検定という試験があるんだ。
F検定の上を行っちゃうな。 まあ言いたいのは未知のデータから相関を語れないという話ね>>584>>595
サンプリングが等間隔でなかったりするとy=t*sin(t)ですらフィットは難しい
場合によっては無相関と断言するやつすらいる >>603
ん?
何のことを言ってるのやら。
具体的に言うてみ? こういうどうでもいい検定が出てくると
この業界も終わりかなーって思う
理事長 松尾 豊 東京大学大学院工学系研究科 特任准教授
理事 井ア 武士 エヌビディア合同会社 エンタープライズ事業部長
江間 有沙 東京大学 政策ビジョン研究センター 特任講師
岡田 陽介 株式会社ABEJA 代表取締役CEO
岡谷 貴之 東北大学大学院 情報科学研究科 教授
尾形 哲也 早稲田大学基幹理工学部表現工学科 教授
川上 登福 株式会社IGPIビジネスアナリティクス&インテリジェンス 代表取締役CEO
草野 骼j 株式会社ブレインパッド 代表取締役会長
佐藤 聡 connectome.design株式会社 代表取締役社長
南野 充則 株式会社FiNC Technologies 代表取締役CTO
渡邉陽太郎 株式会社PKSHA Technology
ろくなメンバーいないじゃんw 因果関係を見つけるために、何かのデータと何かのデータを
用意しなきゃならないが、時間は無限にあるわけじゃないし
データも集められるわけじゃない(例えばすでに破棄した過去のデータは分からない)ので
結局今は人間が関係ありそうなデータ、もしくは集めることが可能なデータを
持ってきて因果関係があるか?を検証する作業になってしまってる
「因果関係を見つける」のではなくて「因果関係があるか?」の検証になってしまっている。
そして因果関係がありそうと人間が判断するものはやっぱり因果関係があるわけで
人間が計算式作ってやってもそこそこ精度は出る。
未知の因果関係を見つけるのには相当時間がかかる。
つまり何が言いたいかというと、機械学習でメリットが有るかどうかは運次第だし
データに因果関係があるとわかっていても、それを集めるのには時間(コスト)がかかるので
機械学習やってビジネス的に儲けがでるかはトレードオフの問題に落ち着く
当たり前だけど銀の弾丸じゃないんだよね。
数年後には、宇宙の中から新しい星を探すように「因果関係があるもの」を探す人たちと
判明した因果関係に関係があるデータを集める人・販売する人たちに分かれるだろう G検定の資格とったらslack招待されるっての聞いたから
11月に取ったんだけどslack招待されない…
誰か入った人いる? >>608
現役で活躍してる人は忙しいから仕方ない E検定って受験資格が教会認定の講座修了者で
ちょっと調べたらその講座が30万円とかなのな
インチキ臭え >>609
機械学習の学習結果の妥当性証明に因果関係の証明が常に必要なわけではないぞ
よくある画像による製造品の不良判定なら因果関係なんて気にする必要ないし >>613
それも製造品の形や重さが他と違っていたら不良ってことだろ?
でも物によっては形や重さが違っていても不良とは限らない。例えば料理とか。
人間がこの製品は形や重さが違うなら不良と考えるから、
形データ(つまり画像)や重量を入力としてるわけで
結局それは人間が因果関係を判断して入力データとして与えてる
機械学習でどれくらい違っていれば不良とみなすかを機械で判定できると思うが
人間が○%と値を入力してもそれほど大きな違いは出ないだろう
それに最初は人間が、これはOK、これはNGって判断する必要があるだろ?
まあOK、NGと判断する作業は今も人間がやっているわけで、
機械学習のための追加のデータ取りのコストはかからないと思うが
なんていうか、そんだけだよねーって感じなんだよ
新しいものを作るっていうよりか、単に精度を上げるための
データ入力者になった感じで、面白みがない。
技術は完成されいて、あとは道具を使うだけ >>616
迷路を解くアルゴリズムはとっくの昔にあるよ・・・ 最適化の対象としてうまく数式に落とし込むのはまだ人間の役目だよね >>608
使えなさそうw
ろくでもないラインナップだなw kaggleのタイタニックで勉強していざ他のもやってみようと思ったんだけど
カーネルでほかの人の見ないことには何も手が動かせない
どこに着目してどういう特徴量作ったらいい、どのパラメータでどんなestimatorを使えばいい
そういうのがまったく思い浮かばない
生データ渡されてまずどこから手を付けるみたいな方法論勉強する方法orいい参考書ないですか
こういう処理をするにはこういうコードとかそういう本はいくらでもあるんだけど >>608
見事に馬鹿ばかりだな。
資格ビジネス狙いのクズ朝鮮人ばっかw >>614
別にあなたが面白いと思わなくても
役に立つならそれを使う人には価値がある
あなたはあなたが面白いと思うものをやれば良い
他のことがあなたにとって面白くなくても
あなたがやる事は変わりない
他にケチつけずに好きにすれば良い >>620
与えられた課題に対して解決方法が知りたいなら、キーワードはモデリングかな
ある程度考え方の基礎がないとモデリングは難しい
勉強方法としてはKaggleとかの方法をそのまま別の課題に適用して、自分の引き出しを増やすことから始める
ある程度こなせるようになって、それでもまだ足りないなら原理を学ぶ必要があるので、統計学や時系列分析、ベイズモデリングのような入門書を読む
高度な数学まで勉強する必要はないけど、自分の言葉で説明できるくらいまでは理解と経験が必要 kaggleで言うなら、機械学習のアルゴリズムより典型的なアルゴリズムの方が面白い 機械学習なんて正確性無いし、機会がやる必要ないよね 他人に説明しやすければ、メリットはデカイんだけどな >>622
役に立たないなんて言ってないよ。
ソートライブラリみたいなもんだなってこと
ソートしたいときにライブラリ使っておしまい
ソートそのものについて研究することはないなぁってこと 資格商法っぽい気はしたがG検定取ったわ
松尾研究室有名だし、転職のときに使えそうだから E資格もそうだけど、未経験者が意欲をアピールするのには使えるよ E検定は内容としては演習問題も含めてコーセラのディープラーニングコースに似てるかな
どうしても日本語で勉強したい人くらいしか需要無さそう 機械学習とかつまんね
数学当たり前とか言ってるけど、他の情報科学だって必要だし、気取ってんじゃねえよ Neural Ordinary Differential Equationsってどうよ? >>623
参考になりました。とりあえず量をこなすところからですか
しかしまいったなー明日プレゼンなのにろくなもん出せそうにないな >>642
参考書を忘れていました
月並みだけどPRMLは良い本ですのでKaggle等の課題と並行して読むのがよいと思います
日本語の訳本が出ていて「パターン認識と機械学習」という本です エロ系のデータセットってある?
モザイク消しを深層学習で出来るか試してみたい。 >>644
さすがにないだろ……聞いたことない
海外から無修正画像をスクレイピングしてきて自分でモザイク修正してデータセット作るしか データセットが洋モノに偏ってあそこだけ洋っぽくなりそう たしかにモザイクから復元するのに利用してる先行研究はあったはず データセット無いかー。今考えてる方法は
1.洋物無修正動画をVottでマンコチンコトレーニングデータを作る。
2.yoloとかで自動モザイク装置作ってモザイクを入力としたDCGANでトレーニング
3.モザイク認識ソフトを作ってモザイクを切り抜き、切抜き箇所を2.にかけて出力を元画像と合成
GLCICは学習コストが凄そうなのでできれば回避したい。他に良いアイデアあったら教えて >>650
サンクス、Partial Convolutionsというのがあるのね。
これだと複数のモザイク箇所にも対応できそうだね。 もしかして、マンコチンコトレーニングしなくても無修正画像をPartial Convolutionsでトレーニングすれば良いだけだったりするか?
光が見えてきた気がする >>658
人間の想像といい勝負
真実は誰も分からないのだから >>658
モザイクの向こう側にある真実を探求するつもりはないよ。違和感なくモザイクが消えればそれで良いと思ってる。
極端な話、機械が妄想して全員綺麗なマンコになってもいいと思う。 >>658
モザイクかけた時点で情報は失われているから元通りに復元するのは不可能
想像でそれらしく補うしか無い 荒くなってはいるが黒塗りとかじゃないんだし完全に情報失われてるわけじゃないでしょ 本物そっくりのCGでもわいせつ物扱いになったし
そのうちモザイクも違法になるかもしれんね
画像から欠けた部分を補完する技術はあるし
どうせそう遠くない未来に、動画の欠けた部分を
補完する技術も一般的になるでしょ?
「欠けた部分」を「モザイクパターンになってる部分」に置き換えるのも
そう難しいことじゃないだろうし、モザイクの部分を本物そっくりのCGに
リアルタイムに置き換える。その時に色情報を使用すればよりリアルになる
結局の所補完した画像はCGなのだが、CGがわいせつ物扱いになるしなぁ
より本物に近いCGを作れるモザイクから違法になって、
最後には黒塗りもアウトになるかもな。
ん?その流れで行くと、水着や下着もアウトかもしれん
今の技術で裸に見える画像(水玉コラ)を補完したらどうなるんだろうか?
流石に誰かやってるよな? よりリアルな補完画像画像(よーするにコラだなw)が
誰でも簡単に作れるようになったら、誰でもわいせつ物が作れると同時に
逆にリベンジポルノ流出とかでもあれはコラだって
言い張れるようになるかもしれないな
写真(そのうち動画)がなんの証拠にもならない時代 >>655
モザイクから元の顔に戻せるように見えてるけど
似顔絵捜査員とどちらがすごいんだろうかね
情報量自体は被害者の記憶を言葉にしたほうが少ないと思う
たったあれだけで、それなりの精度をだせるなら
訓練すればモザイクから元の顔を書く
モザイク捜査員が生まれるかもしれない! >>665
暗号化しなくても、モザイクでアップしておいて
あとは利用者が勝手にどうぞ。
なんてのが出来ちゃうわけだ。 機械学習とはもう無関係なくなってきたが、モザイクどころかなにもないところから
コンピュータが人工知能で作り出した本物そっくりなCGはわいせつ物になるんだろうか? 猥褻物判別AIは、生成されたCGに対して反応するわけだから
そのCGを生成するための元データ(=モザイク画像)を配布したら・・・?
未来もまだまだ、法律の抜け道と無理やりな法解釈のイタチごっこが続きそうだな >>668
本物そっくりだから、本物と区別できない
だから、本物かもしれない
よってわいせつ物
かな〜 >>658
著作権上は機械学習は人間の道具として扱われる
でも機械学習のコードを丸パクリした場合はほとんど定義されていない
この辺りしっかり決めておかないと非常にマズイ事になる気がする 漫画だってわいせつ物になりえるんだからCGもものによってはなるでしょう。 わいせつの3要件
徒に性欲を刺激・興奮させること
普通人の正常な性的羞恥心を害すること
善良な性的道義観念に反すること ワイ動画見ただけじゃ興奮しないんだが。猥褻物なぞ無いキリ 児ポだって大多数の人は興奮しないから猥褻物に該当するかどうかみたいな議論あるしな 猥褻物を描く機械じゃなくてモザイクを消す機械だから問題無いのでは?
消した画像を公開できる状態にしたら流石にダメだろうけど。 Winnyやマイニングスクリプトで検挙される国ですし winnyは開発者が捕まるのがありえなかったよなー
マイニングスクリプトはモバイルはマジでやめて欲しいぞ。電池無くなる
PCで一部リソース使うぐらいならいいけど 名前忘れたけど反転系モザイク解除ソフトも捕まってたな
あれもソフト作る側には問題無いのに 一般的なセキュリティの紹介記事書いただけでウイルス公開したことにされて有罪食らう国だし Winnyの件を考えると、モザイクを消す学習済みモデルを配布するだけで逮捕されそうだよね。
でもまあ学習前のソース配布は問題ない筈だから
(類似や同じネットワークモデルを利用した他のソフトも違法になるため)
学習用無修正画像を自前で用意できればなんとかなりそうではある。 何らかのサービスを提供する場合は海外鯖に置いていても運営元が日本にあると判例上アウトだよね アルファ碁の深層学習の仕組みについて
わかりやすく教えて下さい。
従来のようにモンテカルロ木探索も使われているのはわかりますが
深層学習をどう利用しているのか、いまいちよくわかりません。
深層学習は、画像認識ならわかりますが
これをどう囲碁に利用しているのかイメージが出来ません。
この点をわかりやすく教えて下さい。
よろしくお願いします。 kernel読んでたらデータの標準化って出てきたんだけどこれやってもいいもんなんですかね
たとえば[1, 2, 3, 4, 5]だと[-2, -1, 0, -1, -2] / √2になるそうで
でもこれだと例えば最後の要素が最初の要素より4大きいっていう情報は欠落するじゃないですか
データの絶対値って重要じゃないんですかね >>685
DMMだかfc2の無修正エロサイトは日本語で紹介してるから日本扱いでautoって無茶な判例だった それは標準化の仕方が間違ってる
[-2, -1, 0, 1, 2]/√2
が正しいから大小関係は残る >>687
よくある標準化は学習データを平均=0、分散=1にしてその時に使った係数を残しておいてテストデータにも適用する
分散を変える以上は差の絶対値が変わるのは仕方ないが同じ係数をテストデータに使うのが重要で、結局同じ比率で調整されるので問題はない >>680
> winnyは開発者が捕まるのがありえなかったよなー
winnyは開発者は、考え方が厨二だったからなぁ
この世界は腐っている。一度滅びなければいけない。
新世界を作るために、私は滅びの道具を作った。
だからな。
世界を良くする道具を作ればいいのに、
なぜか滅ぼす道具を作って「お前らあとは頑張れ」だもんなぁ。
あんなんだからWinnyは何も変えられなかった。 生きてたら仮想通貨やってただろうな
まああれも結局マネロン用途だろうからまともではないか ソフトイーサはいいところ攻めてるような。捕まらないような持って行き方は色々あったろうに ソフトイーサは単なるVPNじゃん。OpenVPNと変わらない このブログの人の勤め先ってNTTデータとかCTC?
http://biz-and-deep.hatenablog.com/entry/2018/03/01/001228
外資系じゃなそうだけど、
この頻度で新規AI案件を取ってきて回してる大企業って思い浮かばない >>698
NTTデータじゃないと思う。こんな下流は回らない
にしても日本はIT関連の営業レベルが低すぎる。
*やばいエンジニア
以下は本気でヤバイ ここに書いてある中で、一つだけ賛成できないのは
データ(分析対象になるデータ)の件。
それこそ、生の形でデータを受取り分析者側で加工から
やることが私は必要だと思っている。
そもそも顧客のデータを信じるところから始めてはいけない。
今は、ネットのデータだったり、データが集まりやすいし
さらにデータベース化されているケースが多い。
それに甘んじたまま分析に入ろうとする人が多いのは
私は疑問。 ■ このスレッドは過去ログ倉庫に格納されています