人工知能ディープラーニング機械学習のための数学 [無断転載禁止]©2ch.net
レス数が900を超えています。1000を超えると表示できなくなるよ。
既存の数学的アプローチでは汎用人工知能は無理。
新しい数学を創造する必要がある。 人間の脳の学習能率に対して、ディープラーニングでは人間ではあり得ない量のデータを力技で教え込んでいるという現状を考えれば既存理論では実現不可能なのは明白だな
根本的にやってることが違う 数学は万物を定量化して表すもの
数学に出来ないのはヒルベルトのように、解く方法が解らない問題と
世界の誰も未だに気づいていない問題 そのうち人工知能の性能や危険性を監査する方法が必要になる
監査もAIにして相互に進化させる
人間のはるか上を行くAIになりそう >>806
>監査もAIにして相互に進化させる
こういう自己学習はすべてのAIにて有効とは限らない、と思いますが NNのパラメータが十分多ければSGDでも多項式時間で最適解に収束する事が証明されたな
https://arxiv.org/abs/1811.03962 ε-δ論法での「十分小さければ」みたいによくある表現だよね t分布で自由度が十分大きければ正規分布になるとか、割とあちこちで十分大きければ論法は使われる
「十分大きい」というのが現実的なサイズなら何の問題もないし非現実的なサイズなら机上の空論というだけのこと 誤差曲面には極小値や鞍点が無数にあるにも関わらず、SGDで最適解に辿り着けてしまうのは自明では無い
経験的に知られていたが謎だった事が理論的に解明された事に価値がある
あと(指数ではなく)多項式時間と分かった事も大きいと思う 初歩的なもので申し訳ありませんが
ゼロから作るDeep Learningの中の数式の変形で以下のような変形がありました。
どう変形したらこうなるのはわからないのですがどなたか教えていただけないでしょうか?
c exp(x) = exp(x + log c) 定義から追っていけばわかるだろ?
expてのはeを何回掛けたか
logはその逆
exp(log c) = cはcが特殊な値でない限り常になりたつ。
exp(a)exp(b)はeをa回掛けたものにさらにeをb回掛けることになる
これはexp(a+b)に等しい >>817
ありがとうございます。
言われてみればなんで気づかなかったんだろってレベルでした。 ln 左辺
= ln (c * e^x)
= ln c + ln e^x
= ln c + x
ln 右辺
= ln e^(x + ln c)
= x + ln c
高校の算数で分かる >>816
c = exp(log (c))
まずこれを理解して
c・exp(x) = exp(x)・exp(log(c))
= exp(x + log(c)) >>816
exp(x + log c)=exp(x)*exp(logc) 指数法則:exp(x+y)=exp(x)exp(y)
=exp(x)*c expとlogは互いに逆関数なので順番に作用させると元に戻る:x=exp(logx) c exp(x) = exp(x + log(c))
log(c exp(x)) = log(exp(x + log(c)))
log(c) + log(exp(x)) = log(exp(x + log(c)))
log(c) + x = x + log(c) ゼロから作るDeep Learningの中のAffineレイヤの部分で
行列の積
X・W
をXで微分したものが
Wの転置行列
になっており、
X・W
をWで微分したものが
Xの転置になっていますがこの辺の説明がないためなぜそうなるのかわかりませんでした。
この辺は数学のどの部分をやれば理解できますでしょうか?いい参考書があれば教えてほしいです。
後同じAffineレイヤのバッチ対応版で、バイアス部分がすべてのバッチ分の加算になっていますが
これってどう解釈すればいいのでしょうか?
いまいちなぜすべてを加算するのか理解できませんでした。 >>823
行列 (i,j) 成分が
\sum_k( x_{i,k}*w_{k,j} )
になってる事から一つ一つ計算しな。 DeepLearningを試しにやってみたいけど
Chainerあたりが手軽なの?
ちなみに文系の馬鹿です。
回帰分析とSVMを
Pythonで試したことあります。 そんだけやってればこのスレのほとんどの人より先に行ってるぞ >>837
マジレスするとクラウドのがコスパいい
睡眠も妨げない >>839
無料がいいならGoogle Colaboratory行っとけ
速度はイマイチだがCPUだけよりはかなりマシ >>843
用途による
一般用途はAmazon、サクラ、google、Azure等
あとはサービス連携
ワトソンとか使いたいならIBM Bluemix
TPUで爆速機械学習とかならGoogle Cloud Platform
個人的な意見で申し訳ないが
使いやすいのはamazon aws
価格が安いのはGoogle、IBM
サクラは官公庁とかで従量課金NGとかでも相談に乗ってくれる >>844
ありがとうございます。
取引先は機械学習するのにAzuzeにしたのですが
利用料金が予想以上に高いと言ってました。
いろいろ検討してみます。 値段はAwsでもそう変わらんちゃう
Googleはちょい安そう 本業の問題解決にディープラーニングを利用するかディープラーニング自体を本業とするかでクラウド使うべきかは変わる
GPUぶん回すのは学習時ぐらいなので前者なら実際は学習以外の仕事が大半を占めるのでクラウドの方が安く、後者なら学習させまくるのだろうからハード買った方が安い >>847
何気に無視できないのはデータ量
訓練データや最終出力に大量のデータを保存する必要があるときはクラウドが高くつく
GPUのランニングコストはさほどでもない さくらの高火力コンピューティングとかめちゃ高いよな。
あれ誰が使うんだろ? >>845
利用料金、これからの課題やで
機械学習はこれからビジネスの世界になる
機械学習で精度はあがっても、その精度を出すためのコストが問題されるようになる
大半の用途ではコストがかさんで機械学習をする意味がない
(コストにはデータを集めるためのコストも含含まれる)
もう少ししたら、これが問題視されるようになる >>850
1TBのディスクはAmazon EBSの場合、帯域幅にもよるけど月当たり数千円から数万円。どのくらいを大容量というかは学習とのバランスによる。
GPUはEC2 P3でV100を使って一番安いオプションで24時間使い続けたとして月額25万くらい。実際にはこの1/3くらいだから月8万円としよう。
そうするとランニングコストのうち10%前後はストレージの容量に払うことになる。これを計算機コストに置き換えるとクラウドのストレージが如何に高いか分かる。
V100搭載の計算機は200万円くらい、かつ24時間回しっ放しだと電気代が月々数万円かかる。かりに1/3だとしても1〜2万円くらいだろうか。
※このクラスだと納期に最低2週間、必要なら電源工事、さらには固定資産税が掛かるが今は置いておこう。
大雑把な計算だと、GPU計算機の購入費用はクラウド換算では2.5年間くらいに相当する。2.5年もすると計算機の大幅な性能向上も見込まれるので、クラウドの有用性が分かるだろう。
一方1TBのSSDが2万円切る中、同じ容量のストレージをクラウド上で保持しようと思うと、1〜3ヶ月程度しか持たない。もちろんサービス用の高いストレージを使うのもありだが学習用途なのであまり意味がない。 >>852
コストは掛かるのはわかるが、それによって
なにが得られるかだよな
コストを掛けた以上の利益が得られなければやる意味がない
まあ今はまだ検証段階でそこまで考えられる所まで来てないんだろうけど
いいよな。結果が出なくても良い段階っていうのはw >>852
ストレージは利用者に提供した分は必ず確保して使えるようにするから占有だけど
GPUは隙間時間を別の人が使ったりできる点は違うんじゃね 仕事で国の統計データ使うこと多いのに
マジで勘弁して欲しいぞ 計算できるようにデータを
纏めるのが大変なんじゃ! この地域にはこういう属性の人が多いからこういう戦略で行こうとビジネスの意思決定に使ってた国のデータが嘘だった場合、
これからのことは正しいデータで計算し直せば済むが過去の莫大な機会損失も補償してくれなければ意味がない ほんとにまともなAIなら
学習の結果として
不正な統計データが入力されたら
受け付けずに突っ返す動作にするのが理想だな >>865
それは不正統計を判定するために学習させた場合であって普通は誰もそんなもの作らないから 危機管理だろ、データが不正の場合当社は責任をもちませんと契約書に入れておくとか V100搭載の計算マシンが2〜3ドル/hてのがクラウドの相場 安そうに見えて結構高いよね実は?
24時間回したら俺は生活できないorz クラウド企業は大儲け!
クラウド使う意味が分からん? ディープラーニングは最小二乗法」で物議
慶應義塾大学経済学部の小林慶一郎教授がAI技術について解説
https://www.itmedia.co.jp/news/articles/1902/20/news141.html
さすがにこれはあかん、引退推奨レベル だれを相手に書いてるかが問題で
「日経の経済教室」
なら
あっそう
でおわり でも出力と教師信号の差を小さくするっていう点では
最小二乗法と同じじゃね?
多層にする事でより精度よく
複雑な問題に対応可能になっているけど
もっとシンプルな構造で
同様の出力をできれば
学習の計算力も少なくて済む 別に、理解している人からすれば
どうでもいい話しだよね。 別に最小二乗法である必要性はないし教師と予測の差を測る何かしらがあればいいだけなので全く本質的ではない >>875
短い言葉で判りやすく伝えるにはどういう表現がいい? 深く考えてくれるAIなんです
だからディープなんです
な、なるほど! ディープってのは単に中間層が複数あるということを言ってるだけだぞ >>873
ディープラーニングを一言で説明しろって言われて
A. 最小二乗法みたいなもの
B. ニューラルネットワークを沢山繋げたもの
のどっちの説明が適切かだな
実際はAの最適化の要素とBの深いネットワークの要素のどちらも重要だから、片方だけ説明すると片手落ちになって突っ込まれる 小学生に説明するときと猿に説明するときで説明の仕方変えるだろ
臨機応変に出来ない方が馬鹿 猿に教えてるところを録音されて晒し者にされたのが今回の事案。
「猿が相手だったので猿向けに説明してたんです」とは相手もいる以上言えんわなw 「片手落ち」は使ってはいけない表現じゃなかったか? >>880
ニューロンを沢山繋げたもの
って言われてそれで何ができるの?って思うけどな
炭素を沢山繋げたもの
って言われても価値があるものなのかわからない
炭なのかダイヤモンドなのか >>884
結局は聞く側が何を知りたいのかによる
それによってどんな観点で説明するか変わる ディープラーニングが何者か一言で説明しろと言われて一言で説明したらそれじゃ分からんと言われ、厳密に説明しようとしたらそんな難しい話理解できないと言われ 単純労働はもう人間がやる時代じゃなくなった
DLが判らない人は職を失います
DLが判る人は信用を失います データによって関数近似するだけですと答えりゃ良いんだよ。
deepが今までの機械学習と違うのは関数を表すパラメータが多いだけ。
(まあ多いからそれなりの学習法が必要になるってことではあるのだが。) 確かに「関数って何?」ってレベルの相手に「最小二乗法」とか言っても伝わらんよな そもそも最小二乗法知らないレベルの人がディープラーニングの意味を知ったところでその知識に使い道などない >>891
パラメーターの多さは本質的じゃない
他のモデルでも増やすだけならいくらでも増やせるし >>894
本質か本質でないかはわからんといったところだろ。
例えば混合ガウス分布のパラメータをdeep learning並にしてSGDで学習みたいなことを
実験した結果とかみたことないし、どれくらい差が出るのかは誰にもわからん。 入力データ入れたら、出力データを返す装置を作ってるだけ
それだけの話 >>883
そうやな
ちゃんと片端って言わないとな AIという名称を使ったおかげで
大きな予算が降りやすくなった レス数が900を超えています。1000を超えると表示できなくなるよ。