X



【統計分析】機械学習・データマイニング22

■ このスレッドは過去ログ倉庫に格納されています
0001デフォルトの名無しさん (ワッチョイ f6da-BIu2)
垢版 |
2019/01/13(日) 09:13:37.19ID:lpjZ4t830

機械学習とデータマイニングについて語れ若人


■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング21
https://mevius.5ch.net/test/read.cgi/tech/1541309676/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured
0477sage (ワッチョイ 7f7c-zGAl)
垢版 |
2019/02/05(火) 00:04:30.67ID:en83hCX30
概念の定義を与えないといけないが、ひとまず「もの・ことをどうカテゴライズするか」が概念だとしてみよう。
例えば英語で「私」はIしかないが日本語には「俺、私、わたくし、我輩…」と多数存在する。
どこぞのエスキモーの種族の言語には雪の状態を表す名詞が30以上あるとか。
そういう「何をどう区切るか」が概念なわけだ。
で、ロボットが(おおまかな)人間の間で共有されている概念とはまったく違った概念体系を習得してしまうと、それは人間からは理解できないし、もしかすると人間の役には立たないかもしれない。
それを避けるためには、赤子を育てるがごとく人間社会の中でちまちまと人間の手で育てていく必要があるのではないか…とね。
0480デフォルトの名無しさん (ササクッテロレ Spb3-9Pyw)
垢版 |
2019/02/05(火) 08:24:33.95ID:B/yuDWEQp
対象を見たり聞いたりセンシングして
それを目的に合わせて分類した結果が概念じゃね?

分類するときの判断材料が特徴

センシング、特徴、目的、概念が関係する

概念と目的が妥当なら
センシングと特徴は人間と違うものでも
問題ないんじゃ無いの?
0482デフォルトの名無しさん (アウウィフ FFa3-zGAl)
垢版 |
2019/02/05(火) 11:02:47.01ID:dQJUt0gZF
AVの動画のカットから女優の名前とか作品名を教えてくれるツールが欲しい
出来ればまんこから女優が判るとか
究極は女優からまんこが判るとか
あったらいいな
0484デフォルトの名無しさん (ワッチョイ df7c-9cny)
垢版 |
2019/02/05(火) 14:17:15.43ID:6QU1ObOX0
467

既に知ってる人が観て自分の知識で補完しながら判る(というより変なこと言ってるなーと確認)だけの糞動画
知らない人はこんなの観ても判らないだろうから役に立たない

しかも読んだことない本を他人に薦めるとか基地外レベル

不動産とか詐欺師要素満載
0485デフォルトの名無しさん (ワッチョイ 7f7c-zGAl)
垢版 |
2019/02/05(火) 14:59:16.82ID:en83hCX30
>>479
自分はそもそも >>457 からの流れで書いてるから、いまのディープラーニングブームがこのまま進んで、AGI(汎用人工知能)へ発展していく可能性はあるか? という話をしている。
その観点から言うと、人間が教師データをすぐに与えられるような問題はすでに解決されつつあるし、今回のブーム内で遠からず解決するでしょう。

でも、AGIに求められるのはアブダクション(仮説形成)で仮説を立ててそれを演繹的に適用していくようなことだから、特徴量が違ったら(センサーが違ったら)その過程で人間とはまったく違うものになっていったりしないのかな? と。
0486デフォルトの名無しさん (ワッチョイ 7f7c-zGAl)
垢版 |
2019/02/05(火) 15:08:27.57ID:en83hCX30
教師データを与えられないような問題とは何かというと、例えば、対話破綻検出チャレンジで、
人間とBotが雑談対話したログについて、Botの発言が「破綻していない、破綻している、どちらともいえない」で○×△のアノテートを付けた教師データを用意したわけだけど、
複数のアノテータ間で○×△がぜんぜん一致しない、みたいな。
0490デフォルトの名無しさん (ササクッテロレ Spb3-9Pyw)
垢版 |
2019/02/05(火) 17:19:44.79ID:B/yuDWEQp
>>486
ランダムとか分布に従って○×△を出力すればいいのでは?
分布を学習するくらいかな
0493デフォルトの名無しさん (アウアウウー Saa3-Eh9s)
垢版 |
2019/02/05(火) 20:43:51.48ID:XGEa1Xama
>>443 >>442 >>439
東ロボは失敗したわけではない。
Google最新技術「BERT」と「東ロボ」との比較から見えてくるAIの課題
https://hbol.jp/179474
0496デフォルトの名無しさん (アウアウイー Sab3-neQt)
垢版 |
2019/02/06(水) 08:14:07.00ID:IN2INEgva
>>494
ハーバービジネスっって、扶桑社系列でちょっとオカルト的な色彩と政治色があり
あの菅野完とか持ち上げたりというメディアですよ。
信用して読む雑誌じゃ〜ない。ま、宝島みたいなものかな。
名前からハーバードビジネスに勘違いしそうだけど、まるきり関係ない。
0497デフォルトの名無しさん (アウアウイー Sab3-neQt)
垢版 |
2019/02/06(水) 08:17:24.24ID:IN2INEgva
>>495
それは左巻き洗脳にだまされてるよ。
統一教会は中東で人質になった人などに関係がある、西早稲田の
教会などとの関係が深い。
日本ではいわゆるリベラルグループに見せかけてる。
0502デフォルトの名無しさん (ブーイモ MMcd-xM22)
垢版 |
2019/02/07(木) 09:29:31.79ID:0RPtZKEtM
kaggleのタイタニックが80%行かない
webで80超えたって行ってる人たちとそんなに変わったことしてないはずなんだけどな
100%がチートなのはすぐわかるけど、90%行くのも信じられない
0505デフォルトの名無しさん (ワッチョイ 7d35-OF6d)
垢版 |
2019/02/07(木) 12:16:25.54ID:9WOIINk00
>>503
今はまだ時期早々って感じ
「工場の傷の検品」ぐらい超簡単な判別機ぐらいなら作れると思う
ただ、判別した結果を別のシステムにつなげるのはハードル高そう

>>504
日本人が使うと、エクセルがAIに変わるだけのような気がする
AIよりも手作業の方が早い、みたいな
0506デフォルトの名無しさん (ササクッテロ Spd1-gzwS)
垢版 |
2019/02/07(木) 14:17:07.43ID:0z5C548Yp
>>505
時期尚早かも知れないが今のDeep Learningは所詮はこんなもんだからいいんじゃない?
コンポーネント組み合わせているだけだしね
途中の出力結果をモニタリングできればTensorboardの代わりになる
0507デフォルトの名無しさん (ワッチョイ 7d35-OF6d)
垢版 |
2019/02/07(木) 14:25:14.03ID:9WOIINk00
>>506
そうだねぇ
今は結果がでなくて良い、将来の投資と考えれば20万は全然アリだろうね
恐らくそういうのは主流になっていくから、良いスタートダッシュが出来ると思う
結果を求めて20万を投資するのは止めたほうが良い
0509デフォルトの名無しさん (ワッチョイ 6eb0-/WZR)
垢版 |
2019/02/07(木) 18:44:00.55ID:drP3SkmE0
>>508
いやいや本1冊とGPU1つの方が全然いいだろ。
5万円で終わって1から10まで全て自分でできる。
そのサービスが何をやっているかは動画見ればもう分ったろ?
しかも19万円「から」って何だよw
0511デフォルトの名無しさん (ワッチョイ 7d35-OF6d)
垢版 |
2019/02/07(木) 19:03:30.40ID:9WOIINk00
>>509
要はこのサービスはpython使えない人用ってことでしょ

python使えればGPUで済むけど、
大企業になるほど企業の担当者がpythonから覚えるってのは時間的にも人件費的にもコストが高く付く
0512デフォルトの名無しさん (ワッチョイ 49e6-DOT6)
垢版 |
2019/02/07(木) 20:21:51.37ID:+UWXd1n20
>>511
大企業なら社内で研修とか外部に元々委託している研修とかあると思うけどな
0516デフォルトの名無しさん (ワッチョイ 913c-gzwS)
垢版 |
2019/02/08(金) 06:56:58.65ID:yMYWywMo0
>>511
論文読んでSEnet組むような場合にMATLAB/SIMLINKのようにGUIで線を伸ばせば実装されるくらいの出来であればpython使いでも有用かな

もしGUIで組んでpythonコードやC++コードが出力されるなら価値はグンと上がるけどどうかな

価格設定は高いように見えるけど、このレベルのソフトウェアはいくらでもあるし、お試しで導入するところはあるだろう
0523デフォルトの名無しさん (アウアウエー Sa0a-ro0h)
垢版 |
2019/02/09(土) 11:04:05.64ID:GXylZ965a
>>517
wasserstein ganは誤差が綺麗に収束して学習が上手く行ったか分かりやすいのでおすすめ
0528デフォルトの名無しさん (ワッチョイ 422c-FtKs)
垢版 |
2019/02/09(土) 14:27:00.81ID:kQ2GB04C0
みんなKaggleとかSignateやってんの?
Signateは賞金安いのに権利全部よこせとか、優秀だけど安く雇える学生だけ探してるわとか、
訓練画像20枚な、とかで絶望しか感じないんだが
0531デフォルトの名無しさん (ワッチョイ 7d35-OF6d)
垢版 |
2019/02/09(土) 15:02:24.59ID:mHvlvZK80
>>527
「わいせつ物頒布罪」はあるが、このプログラム自体はわいせつでもなんでもない
しかし、モザイク付きの画像・動画とセットで配布した場合、
それは単に特殊な圧縮形式と看做されるかもしれない
どうなるかは其の時にならないと分からない
0535デフォルトの名無しさん (ササクッテロ Spd1-gzwS)
垢版 |
2019/02/09(土) 17:47:46.95ID:vFLtltfzp
>>528
たまにやるけど最適化競争より面白いモデルや新しいモデルを試してる感じ
良いスコアが出そうなら頑張るけど工数はそれなりにかかるんでね

それでもSIGNATEを日本の企業はもっと活用すべきだと思うけどね
同じ仕事を外部に発注したら賞金の10倍以上の予算使ってもコンテスト以上の物は絶対に出て来ない
コンテスト終わったらデータ全部消せとかプログラムの版権寄越せというなら上位以外にも賞金出さないとダメだと思うし、いろいろと改善の余地はあるんじゃないかな
0539デフォルトの名無しさん (ワッチョイ 7dad-JcLr)
垢版 |
2019/02/09(土) 21:44:47.21ID:oCn/KMFX0
好みの画像だけで学習させれば、微妙な画像を良い感じの画像に変換できるんだよな。
マジでAVやIVがモーションデータみたいに使われるのが普通になっていくかもしれん。
0542デフォルトの名無しさん (ワッチョイ 6e1f-feI+)
垢版 |
2019/02/10(日) 00:48:54.78ID:tgFjaU2a0
深層学習ってなんでちゃんといい解求まるのか不思議
自分でコード書いて実行してちゃんと学習してるのみるともっと不思議
たまに盛大に失敗するけど、どういうときにちゃんと学習するのか経験と勘が必要だなって感じる
0545デフォルトの名無しさん (ワッチョイ 6e61-uR/r)
垢版 |
2019/02/10(日) 12:26:32.09ID:n7nGuX8W0
tensorflowの公式サイトがIEやedgeだとレイアウトがうまく表示できないようになってて笑った
chrome以外のブラウザでは観るなってことか
0546デフォルトの名無しさん (ワッチョイ 422c-FtKs)
垢版 |
2019/02/10(日) 12:33:17.40ID:yDa0fUpq0
Microsoftは老害と成り果てたか
この前のアプデでレジストリいじってもCortana消せなくなったしよぉ
0548デフォルトの名無しさん (ワッチョイ 5202-DOJB)
垢版 |
2019/02/10(日) 16:13:45.99ID:/5t+184M0
>>511
分析だけならデータ放り込めば良いだけのツールが有るし、
機械学習でモデルだけ作っても実装にはPGが必要なので、
Neural Network Consoleは中途半端

パラメータを自動で最適化してるらしいが、
同一の学習データに対して、他のライブラリの方が明らかに良い結果が出てた
0552デフォルトの名無しさん (アウアウイー Sa91-mimx)
垢版 |
2019/02/10(日) 19:22:40.50ID:Jb5869jLa
>>545
GoogleはChromiumに仕掛けしているようで、たとえばYoutube
なども稼働するOSの上で弄っているらしい。それはChromiumで吸収してい
ようで、たとえば各種のOSじょうに独自のブラウザ提供しYoutubeも支障なく
見られるようにするには、一つ一つ別途に弄るか、Chromiumをレンダリング
エンジンに使うかの選択が必要になるようだ、マイクロソフトは今後の方向と
して主要OSにさまざまなものを提供する方向にあるが、その際に開発負荷を
減らすためにレンダリングエンジンをChromiumに変更した。
とのことらしい。

これと同じようなことだとしたら、Vivaldiで動かしてみたら使えるかも
しれんよ。暇だったら試してみて。
0553デフォルトの名無しさん (ワッチョイ 91b3-tGKk)
垢版 |
2019/02/10(日) 19:24:05.44ID:Pbk6oQIR0
改行きもいけどどこからコピペしてきたん?
0554デフォルトの名無しさん (アウアウイー Sa91-mimx)
垢版 |
2019/02/10(日) 19:29:33.73ID:Jb5869jLa
>>542
>深層学習ってなんでちゃんといい解求まるのか不思議

解が求まっているっというわけでもないんだが
ま、求めているものに近いものが他より効率よく出力される
と言った方がいいのかな?

だから、深層学習も、自分で出した結果を見て
「真相はいかに?」と思ってんだと思うよ
0556デフォルトの名無しさん (ワッチョイ e101-PGOX)
垢版 |
2019/02/10(日) 19:36:56.56ID:PsXGMK3/0
飼い主にとってきたものを見せる猫
0557デフォルトの名無しさん (アウアウエー Sa0a-ro0h)
垢版 |
2019/02/10(日) 19:46:23.77ID:4R8paj5za
>>542
誤差曲面には局所解や鞍点が無数にある筈なのにSGDのような単純な方法で良い解に辿り着けるのは長い間謎だったけど最近になってこの辺が理論的に解明され始めてる
0558デフォルトの名無しさん (ワッチョイ f901-A0Bz)
垢版 |
2019/02/10(日) 20:05:40.24ID:EWmLbbO60
バッチサイズを大きくすると学習効果が低いというのもよくわからん話だな。
これって人間でいえばドリルを一気にやってから答え合わせするよりもちょこちょこ
答え見て解答してった方が勉強効率が良いってことだよね?
0559デフォルトの名無しさん (ササクッテロ Spd1-gzwS)
垢版 |
2019/02/10(日) 20:39:31.71ID:L/vUvPOUp
>>558
バッチサイズの大きさと学習効果については相反する議論が展開されていて、バッチサイズが大きくても学習率を下げれば性能は変わらないとする論文がある

更新分は

(epsilon / batch_size) * (sum of grad)

なのでbatch_sizeを倍にしたら学習率を半分にするといい
勾配分だけがbatch_sizeの影響を受けるので、モデルおよびデータ次第ではどっちにも転ぶことになる
0560デフォルトの名無しさん (ワッチョイ 02ad-J+LR)
垢版 |
2019/02/10(日) 20:49:45.78ID:spsEs2Cn0
最近勉強し始めた超初心者だけど、なんとか学習モデル生成出来るとこまできた
(ほとんど参考サイトのコピペだけど…)

が、マシンスペックが全然足りなくて学習が進まない…
↓この参考サイトの著者は100epochsで12時間かかったらしいが、俺は7時間かけて2epochsだけ
http://app.m-cocolog.jp/t/typecast/603293/510034/88662045

「ちょっと自分でモデル作って味見してみようかな」っ人には着手しづらいなぁ
0562デフォルトの名無しさん (ササクッテロ Spd1-gzwS)
垢版 |
2019/02/10(日) 21:03:00.43ID:L/vUvPOUp
>>560
そこそこ良いGPUないと面白さは半減だねぇ
Google Colaboratryでもいいけど長い時間の学習は処理を分割させる必要があるし、画像系はデータが巨大になりがちだし、趣味でやるには少しハードル高いよね
0564デフォルトの名無しさん (ワッチョイ 0202-RyKv)
垢版 |
2019/02/10(日) 21:35:28.36ID:7aqx1gb30
ColaboravoryでTPU使うのにただ切り替えるだけじゃだめなんだよね

あれ使えればかなり楽になると思うし体験してみたいけどそれ用にコード変更しなくちゃいけないんでしょ
0565デフォルトの名無しさん (ワッチョイ 7d35-OF6d)
垢版 |
2019/02/10(日) 21:41:12.60ID:Z3H3Tv4Q0
>>564
一から書ける技量が無いと対応できない
githubに転がってるやつをちょっと変えれる程度じゃ無理
データも容量的に厳しいので、googleドライブにおいてそこからapiでひっぱってきて・・・とかなり面倒
その内ラッパーとか出来ると思うけどね
0566デフォルトの名無しさん (ワッチョイ 0202-RyKv)
垢版 |
2019/02/10(日) 22:44:44.91ID:7aqx1gb30
>>565
そうか残念

拾ったCycleGANのコード動かそうとしたら重くなって落ちたからTPUでやってみたかったんだけどね

ところでcolaboratoryでコードの出力欄に四角いダメ顔マーク出てくるのはなんの意味なんだろうか
メモリ不足?
0567デフォルトの名無しさん (アウアウイー Sa91-mimx)
垢版 |
2019/02/11(月) 07:49:10.66ID:hy2CndF0a
>>553
それ使ってる環境しだいだよ。胆くするブラウザ使ってるから。
0572デフォルトの名無しさん (ワッチョイ 7d35-OF6d)
垢版 |
2019/02/11(月) 13:39:32.95ID:fMjwAL+60
>>569
こないだ暇だったからmnistで計測してみたから間違いない
スペックも実測値も、ほぼGTX960〜GTX970当たりの性能
K80のGPUが1/2になる事を考慮すると、スペック的にも大体合うはず
0575デフォルトの名無しさん (ワッチョイ 8d83-Q2RD)
垢版 |
2019/02/11(月) 17:06:00.23ID:UQjSOk2h0
GPUに辿り着く以前にラーニングの前処理で異様に時間がかかる
ひょっとしてcolaboratoryのCPU1コア?
データ読み込んで特徴量増やしてるだけなんだが・・・
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況