【統計分析】機械学習・データマイニング20
■ このスレッドは過去ログ倉庫に格納されています
機械学習とデータマイニングについて何でもいいので語れ若人
※ワッチョイだよん
次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね
■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76
■前スレ
【統計分析】機械学習・データマイニング19
http://mevius.2ch.net/test/read.cgi/tech/1520586585/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured Courseraのカーネル法の説明、あれで分かる奴おるんか? カーネル法はカーネル法の項目で分けるべきだと思うんだけどな
応用先はサポートベクトルマシンだけでない。
主成分分析、巡回セールスマン問題など多種多様 最初Octave覚えるのうぜえ、とか思ってたけど、
Octaveに慣れると、numpyの行列表現が面倒くさくてたまらなくなるね ex2のcost関数はiでforループ回してsumしてくしかないのかなあ。octaveなら全データまとめてベクトル演算出来ないかと期待してたんだけど >>307
どうしてもJの値が期待値の3倍になっちゃうので完全ベクトル化は諦めたよ courseraの2週目まで来てやっとプログラミング課題始めたけどこれ英語ダメダメな人には結構無駄に時間かかりそうだな
自分はある程度読めるからいいけど英語アレルギーの人には15ページの英文テキストとかハードル高すぎだろう あの程度の英文が読めるというだけのことが自慢と感じてしまう人って・・・ いや、大学で論文書いてるし講座受けたことないから知らん まず自身が学習する知能すらないヤツラが
機械学習とかいってるのがな 機械を使って能力を補完するのは
誰にでもありそうな要求じゃないのか 機械学習という強化学習は体罰と同じだからな
つまり体罰は科学的に正しい マウスはサッカリンが大好き
エサ箱にサッカリンおくと
マウスはひたすらサッカリンをなめる
そんなマウスに
サッカリンなめると高圧電流を与える
それを繰り返す
するとな
マウスはサッカリンなめなくなる
しばっきんぐを伴う学習は
ものすごく適切な科学的教育メソッドといえる それは単純作業をひたすら行うだけのための教育には最適だろうが自分で考える高度な仕事をできるようになるための教育としては全く機能しない
餌食べると電流来るから餌食べない、ではなく電流を止めるかそんな実験してる者を殴りに行くことが本当は求められる >>320
本当に教育目的ならね
でも実際は自分の言うことを聞かないなどの感情任せで叩いたり
現実の教師には幼稚な人間が多いから体罰を許可するのは難しい
AIによる教育が普及したら体罰の導入もあるかもねw 人間も刺激を受けて
微弱な電流の電気信号を脳に伝えて(コレが入力)
NNにちかいものを脳みそで構成しながら(コレが処理)
反応してるだけなのは(コレが出力)
ほぼ間違いないからな
キミラはその中でもかなりできそこないの肉塊なワケ
キミラはまずその自覚がないといけない 何かに例える奴って本質の部分をずらして解釈させようとするから好きじゃない。 >>325
同意ですね。
特にこの分野はそうゆう説明をする人が多すぎる気がします。 ていうかわかってないんだよ
ワイアードの機械学習関係の記事もめちゃくちゃだし。記者も理解してない。 >>324
化学物質とか細胞とかも関係している
どの程度の影響かは知らないけど 海外IT大手勤めかPFNか東大松尾研関連の人のTwitterやスライドは参考になる
あとarxivで論文読んでレビューしてる人達(一次)も参考になる
それに海外にさきがけて論文内容を実装してる人とそのgithub
QiitaでCNN,RNN,LSTM,GANなどのモデルの基礎を詳細に解説してる記事は初心者〜中級者には参考になる
でも日本の情報は大体ここまでだね
日本で画期的なモデル作り出してsota達成してる人なんていないし
業務応用の事例は基本的に社外秘だから表に出てこない >>333
そもそも日本人が書いたもんとか読むだけ時間の無駄。元ネタ読むほうがわかりやすい 海外論文のほとんどは、既存の方法のマイナーチェンジですね。
論文の数で劣っても焦るべきはそこではない マイナーチェンジでない新手法の開発数で比較した上でそれを言うならいいけどどうせそんなの調べてないんだろ 日本なんか遅れまくってるんだから
先進国のペーパー読んだほうがそりゃマシだろw 低学歴知恵遅れは
NNモデルは半世紀以上前からあるモデルの焼き直しなのすらわかってないからな
低学歴知恵遅れに限って基礎も分からずにムダにいきってるワケ NNモデルなんかウンコみたいなエキスパートシステムがはやってた頃からすでに存在する
コレもきっとな同じ道を歩むことになる
予言するわ エキスパートシステムみたいな山盛りのウンコができると
予言してるワケ 20年前エキスパートシステムやってた大学の先生がAIメチャメチャdisってたな。講義で学生相手に悲観的なことばっか言ってな。今どうしてんだろ。ヒャッハー? 中級者向けの記事なんて書いても利益にならんからな
初心者向けなら宣伝になって仕事の依頼がくることも期待できるが 技術記事自体で利益出そうと考えること自体が技術者としての本来の在り方から乖離してるけどね 技術がカネにならない日本はおかしい。シリコンバレーの後追いしかしてないフリーライダー。 クラス分類できへんねやったら回帰分析しかないんですか? 人間の脳のように学習するって誇大広告じゃね?
中身はロジスティック回帰を何層もやってるだけじゃん >>359
そう思うなら一つのロジスティック回帰を再帰的に使って同じ結果を出せるか実験してみたらいいのでは? 一つのロジスティック回帰では無理だろ
>>359 はそんな事言ってないし クラス外のデータの排除に効率的な方法は何ですか?
例えば、0〜9の数字10クラスのネットワークに「b」の文字を入力する場合を考えた時に
理想的には全クラス10%くらいの確率ラベルを持ってくれたらいいのですが
恐らく結果は6が高確率で帰ってくる気がします。
適当に数字以外の文字を詰め込んで11個目のunknownクラスを作ることは効果があるのですか? >>363
こっちが専門じゃないだけかもしれないけど、おそろしく何を言ってるのか分からない
deep learningのような分類器で、画像データを10のクラスに仕分けたいけど、
特定のクラスに偏りが生まれるからどうすれば良いかということか
一般論として、deep learningならば、ノイズを混ぜるのは場合によりけりだけど有効だろ
新しいクラスを作るのは、ちょっとわからんなあ データを多く仕分けられるクラスに、データが仕分けられにくくなるように
損失関数に、データ量に比例して増えるペナルティーを追加すればいいんじゃないか 一回限りの分析なら、手入力で特定のクラスの損失関数に
手入力でペナルティーを追加して、そのクラスに分類されにくくするのも手だと思うんですよ?
そんなやり方でも、いちおう分析結果は平らにはなるよね。たぶん。わからんけど >>364
(自分なりに)もう少し分かりやすく書き下しますと、
この世のありとあらゆる果物が成ってる木があるとして、
この木の画像の中から、リンゴとミカンとブドウを見つけて自動収穫したいタスクがあるとします。
リンゴとミカンとブドウの画像を学習させて分類器を作ったのですが、青リンゴやデコポンやマスカットが学習させた果物と誤認識されて収穫されてしまいます。
学習せた3つの果物以外は収穫したくないので、認識して欲しくないのですがどうすれば良いですか?ということです。
(分かりにくかったらすみません。) >>363が言いたいのは数字画像を読み込んで数値を出力したい、ただし入力が数字でない画像だったら数字でないと出力させたいってことだろう 数字以外の画像を適当に[0.1..0.1]のベクトルになる教師データとして流し込めば
そういう分類器ができるんじゃないの 数字以外の想定し得るあらゆる文字のデータを学習させる必要があるから非現実的だろうね
数字にだけ共通する特徴があるなら最初に数字か数字でないかだけの分類をすればいいけどそんな特徴ないだろうし難しい 認知機能が低いこのスレいるような低学歴知恵遅れが写真をみると
コレは心霊写真だという
コレは俗に言うシミュラクラ現象になる
ウンコAIに顔認識をさせると
コレと同じような現象が発生してもなにもおかしくない
コレは出力結果としてものすごいおかしいとはいえない
特徴どおりだからな 文字だけの識別なら数量化I類で十分
数量化I類でもかなりの精度になる ひとつの分類器でふたつのことを同時にやらなければいいんじゃね?
@一個の数字画像を、10個のクラスに仕分ける
Aその画像が本当に仕分けられた数字と同じか否かを判定する
このふたつの段階に分けれて、別々の分類器を用意すれば、そんなに難しいことしなくても簡単に組めそう。
@のためのニュートラルネットワークの分類値と、Aのためのクラスごとの分類器を10個用意する必要があるけど、
Aの分類器はたぶん同じようなアルゴリズムで動くから書くの簡単だろ
ただの思いつきだけど、どうだ? ぜんぜんわかってないわ
特徴抽出をするのが先だからな
特徴抽出されたデータを学習させない限り
いつまでたっても学習効果なんかない >>363
まず数字かそれ以外かを分類してみるとか
で数字のものについて0-9のどのクラスに属するか判別する 数字かそれ以外かで分類しようとしたら結局bは6と判定されるだろうけどね 正確には、6と扱われることでbは数字に分類されるだろうけどね >>369
これがほぼ正解に近いですが、>>371にある通りやはり難しいのですかね。
>>376
数字は例えだったので・・
より実際に近い例えですと、一般物体を「犬、桜、車」の3クラスで認識し、
猫や梅や船のような他の物体なら、3クラスのどれでもないと返して欲しい、というような感じです。
未知の入力の中から、学習させた特定の対象だけを認識することは難しいのでしょうか・・
未知の入力パターンをリジェクトしてくれるような仕組みがないものかなぁと思い質問しました。 >>379
それも対象となる幾つかとそれ以外に分類してみたらいいのでは?
それか6とbを判別するような判別を後からかけるとか
人間の感覚だと6とbの判別は上側のコーナーの位置と左側の上の交点の位置関係を見ているように思う
それを入力に追加するか学習で獲得させるか >>377
それは教師信号とか学習方法とかでも違う結果になるんじゃないの?
厳しすぎて6を検出しなくなるかもしれないけど
それはそれで後から判別する用途に使えるかも知れない >>361
一つとカウントするものの認識が違うようだ
ロジスティック回帰を特徴づけるパラメータを引数とする関数を一つと表現している
その関数を再起的に使うことを想定している >>379
犬とそれ以外の2値分類器、桜とそれ以外の2値分類器、車とそれ以外の2値分類器を作って、1番スコアが高いものを答えとする。もし3つのスコア全てが一定の閾値以下であれば該当なしとする。うまくやれば1つのNNでできるかな? >>379
未知と言っても実際はデータに偏りがあるから
その他クラスをつくって全部いれたら実用精度いくこともあるかも
ていうかこの程度のこと聞く前にやってみ >>381
初めから6とbが似ているという情報があればそれでもいいのですが・・
どんなものが(特徴量レベルで)6に似ているか分からない時にどうしたらいいでしょうか。
上の例だと、例えばアマゾンの奥地に私達が名前も知らないような犬に似た動物(人が見たら似ているけど犬ではないときちんと判別はできる)がいたとして、それがたまたま入力された時にちゃんとリジェクト出来ればと思うのですが。
>>384
2値分類器にすれば学習データ以外に対するリジェクト率は高くなるのですか?
少し検討してみます。
>>385
はい、もちろんそのつもりではあります。
ただ、あわよくばその他クラスの入力として有効だと知られているデータセットとかないかなと思いまして。
もっと確立された方法があるかと思ったのですが、
意外とあまり一般的な話ではないのかも知れないですね。 >>386
訂正
×その他クラスの入力
○その他クラスの学習 シグモイド関数以外で判定すればいいんじゃね?具体的には知らんけど >>386
犬に似た動物か犬かは人間も見た目だけでは判別できないのでは?
DNAとかをみて分類するのであればそれを入力として判別するように学習するんだと思う
あくまでも既知の物に近い物の中でどれに近いかを判別するのだと思う
人間も例えば人の名前を聞いた時に
自分が知っている人の中から思い浮かべるはず
名前の文字列から同姓同名の知らない人かどうかは判別できない つまり似ているけど違うものを正しく判別出来ないときは
判別手法が適切でない可能性だけでなく
入力情報が不足している可能性も考える必要がある
当たり前のことだけど
逆に判別手法は同じでも入力情報を変える事で目的を達成できるかもしれない まず大前提として、バイアスが高いとかでなけりゃ
データ数が機械学習のすべて
DNNなら基本的にバイアスが高い状態は無視できるんだから
人が見て判別できる特徴を学習できるほどデータが足りないから誤判別するんだよ
そのデータ数を補い学習を促進させるのがGAN
アウーイモ MM1b-P3CUの問いに対する今最も適当な答えは、GANを組み込めって事だ
もう組み込んでるなら、CNNの前にattentionをぶっ込んで
attention順のtimestepやpositionを特徴に付加した上でCNNで畳み込むモデルを作ったりしろ
ここは先端研究分野だから論文読んで勉強して自分で試せとしか言えない >>386
もしかして、教師あり機械学習において、訓練データとして正例だけで(負例は与えずに)判定器を作れるか、という話なのかな?
もしそうであるなら、教師あり学習では出来ないと思うけど。 6とbの例だと
数字を入力する欄に書かれている場合は6の可能性が高い
前後が数字だったらとか文脈情報を付加する事で
正解率を上げることはできると思う
人間も無意識に探索空間を限定していると思うよ
6はアラビア数字空間で見たら6だけど
ローマ数字空間でみたら該当なしが正解 >>386
で、もし負例を集めるのが大変だという事であれば、学習済みの重みを使って転移学習できるかどうかを検討してみたらどうかな?画像系や言語系なら色々あると思うけど。 NVIDIA、AI学習モデルの推論処理に特化した「Tesla T4」
〜Pascal比で12倍の性能
https://pc.watch.impress.co.jp/docs/news/1142896.html
これって学習にも使えるの?
使えたとして個人で買える価格なのかな inferenceに特化してるとしか書いてないな
学習に使えたとしても大した性能でないんじゃないかな ■ このスレッドは過去ログ倉庫に格納されています