【統計分析】機械学習・データマイニング21

2018/11/04(日) 14:34:36.02

機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング20
https://mevius.5ch.net/test/read.cgi/tech/1533635797/

VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured

2018/11/30(金) 03:53:30.13

データが減ると更にバラツキが増すよ

2018/11/30(金) 06:15:10.87

交差検証はそれが目的じゃないから

2018/11/30(金) 08:44:44.60

>>303
研究とかで発表するときはどういう値を使ってるのですか？

2018/11/30(金) 10:54:28.88

Microsoft Facebookの人工知能ツール「PyTorch」への開発協力
https://aitimes.media/2018/11/20/1080/

2018/11/30(金) 13:00:06.59

例えばkaggleとかなら初めからトレーニングデータとテストデータが分かれててテストデータとの答え合せで数値としての精度を用いてます。
自分で1つのデータを用いて精度を出したいときに、データが少なくてテストデータの選ばれ方にかなり影響を受けるというようなとときにはどういう風な値を用いればいいのかっていうのが聞きたいです。

2018/11/30(金) 13:02:03.08

>>306
テストデータの選ばれ方によって予測精度が全然違うみたいな時です。

2018/11/30(金) 14:10:30.81

バイアス・バリアンスでグクってみな
過学習気味だと思う

2018/11/30(金) 16:23:37.26

扱ってるデータの性質上データ数が少ないのは仕方ないのです…
今書いてるコードなんですが、
sklearnのcross_val_scoreでcvパラメータに層化分割を渡してます。(StratifiedKFold(n_splits=3, shuffle=True)
これでfor文で例えば100回回すと3つセットのスコアが100個出てきますよね？それで3値の平均のさらに100個の平均って感じで評価基準にしてます。3つセットのスコアの分散がそこそこ大きいのは仕方ないと思ってます。
これで良いのですかね。

2018/11/30(金) 20:22:51.78

もしかしてデータ数は変数より少ない？

2018/12/01(土) 01:13:01.62

>>310
そんなことないですが

2018/12/01(土) 07:22:28.11

仮にだが、同じテストデータを入力したとして、都度異なる結果を得るかもしれない。
そうなら気にしない。

2018/12/01(土) 13:45:07.60

>>305
PyTorchがさらに広がりそうだな

2018/12/01(土) 16:00:36.28

https://pbs.twimg.com/media/Do12HK4U8AASiZd.jpg:large

2018/12/01(土) 16:03:42.40

>>314
まんま俺じゃねーか！
まぁケース買い直して難を逃れたけどな

2018/12/02(日) 12:37:35.98

>>314
そのアニメおかしくないか？
その方向にガッ！とかいってひっかかるかな？

2018/12/02(日) 15:13:17.02

おかしいのはこれがアニメに見える目の方やで

2018/12/02(日) 15:26:02.69

確かに。
おれは疲れているんだよ。
おれはおかしくなってる。

2018/12/02(日) 18:51:57.95

初めて来たけど新しくて注目されてる分野だけあってスレも活気があっていいね

2018/12/03(月) 07:56:04.08

新しい理論ではないけど、
計算機の進化で計算できるようになったのと、
データ分析が役に立つことが認識された
ことが大きいと思う。

理論として21世紀に出てきたものは
ほとんどない。
DLなんて50年前の理論たし。

2018/12/03(月) 11:38:00.85

そのとおりだよ

2018/12/03(月) 11:39:08.74

基礎理論は昔に提唱されてたけど、実際できるようになってからの進歩は目まぐるしいよ
alphaGoとalphaGpZEROには恐れ入った

2018/12/03(月) 12:28:26.08

基礎理論とハードのスペックが揃えばそれだけで使い物になるわけじゃないからな

2018/12/03(月) 12:44:09.72

>>320
ほんそれ

2018/12/03(月) 12:45:53.17

>>323
今後はエクソソームだな

2018/12/03(月) 13:03:16.97

ディープラーニングのG検定ってどうよ？
公式テキスト買って読んでるわ。

2018/12/03(月) 13:58:43.26

検定で心が安らぐ（笑）

2018/12/03(月) 14:00:36.39

G検定でバーニーおじさんのルールってのが出たらしいけど、ググってもG検定関連の記事しか出ない
バーニーおじさんの出所ってどこなん

2018/12/03(月) 15:16:45.90

>>328
たしか、テキストに出てたわw

2018/12/03(月) 20:49:11.45

>>233
落ちた人と比べたら受かった人はそれなりに理解していることが判るだろ
2級に合格した人が1級の能力を持っていないとは言えないけど
2級の能力を持っていることは判る

何も受けていない人は何も判らない
ゼロかもしれないし1級を超えているかもしれないし
判断する側からしたら区間推定の範囲を狭めることができる

2018/12/03(月) 20:51:44.68

人工知能の検定とか効果あるのか？
情報処理関連の国家資格のほうが有益だと思うよ

2018/12/03(月) 20:56:58.92

試験を受ける・受けないは自由だが機械学習専門で仕事にしてるような人が2級すら受かる能力がないとしたら大問題

2018/12/03(月) 21:12:21.84

資格は座学だからなぁ
本当にAI実技が出来るのかと

どっちかというと「会社で○年間人工知能の実務してました～」
のほうが面接受け良いぞ

あとコラボラトリーやっと動かせた
思ったより簡単だったが
アップロードが少しめんどいな

2018/12/03(月) 21:19:12.68

テストでは記憶が試されるが
別に覚えてなくても読んでわかれば全然問題ないはず

2018/12/04(火) 08:05:16.33

>>334
自分で判ってると勘違いや自己暗示をかけているだけかもしれない

2018/12/04(火) 08:42:28.96

暗記しなくても調べれば分かるんだからいいっていうのは稀にしか使わないような複雑な公式とかならそれでいいんだけど
例えば統計検定2級までのような基礎的な内容に関してはそれではいけないだろう

2018/12/04(火) 09:38:24.31

>>330
お前の理解はその程度かｗ

2018/12/04(火) 20:22:10.65

DLの検定はサンプルみただけでイヤになった、
と理論の先生が言ってた。

2018/12/05(水) 00:53:53.91

RX480で機械学習したいけど
plaidmlが認識してくれない

openclってRadeonソフトウェアいれてるだけだと動かないとかあります？

2018/12/05(水) 16:28:35.00

>>331
ほんそれ

2018/12/05(水) 16:29:14.67

>>334
むしろ後者の方が大事

2018/12/06(木) 14:37:25.24

ニューラルネットワークを利用して音楽を作曲する試み
https://gigazine.net/news/20181206-neural-net-music-generator/
聴くとなんかイライラするw

2018/12/06(木) 21:05:12.09

優れたAI開発者とは何ぞやと問いに対して、
海外では、アルゴリズムを開発できる人、Kaggleで上位を取れるような分析者、に加えて、
課題解決の為にAIを実装できる人というのが入ってくるが、
日本企業は、要件定義と開発は別物だという認識が強いのか最後のが出てこない。

つか、提案できるやつを引き抜いてくれないので、
導入事例が豊富なモデルの二番煎じしか出来ないのはつまらん

2018/12/06(木) 21:13:32.62

ユーザー側が技術者に要件定義させないからな
知能指数がだいぶん違うだから先方の業務に関してもある程度的確な判断できるってことがわかってない

2018/12/06(木) 21:52:05.54

モデルをユーザー指定にさせてるの？
それはまずいだろ
俺は要求精度だけだわ

2018/12/06(木) 22:00:55.11

たぶん誰もそんな話してないと思うが

2018/12/07(金) 00:41:20.12

>>343
流行りのAIを採り入れたいけど結局は保守的ということかね

2018/12/07(金) 00:50:03.54

プログラム書いたことないSIerが作った要件に従って下請けプログラマーがコーティングするだけなんだよな

2018/12/07(金) 15:08:02.31

>>342
このテのものは現れては消えるな

2018/12/07(金) 15:09:15.97

>>344
プライドωが許さないんだろうωω

2018/12/07(金) 23:03:52.71

クロスエントロピー誤差の値がマイナスってありえないよね
本の通りにDCGANくんで学習させたら識別器の誤差がマイナスになるときあるんだけど

2018/12/08(土) 00:28:15.02

これ誰か質問してなかったっけ？
http://www.atmarkit.co.jp/ait/spv/1812/07/news049.html

2018/12/09(日) 05:39:24.92

知らないうちにクロームの翻訳機能進化してんな機電系技術記事みたいな簡単な英語ならほとんど問題ないくらいに訳せてる

2018/12/10(月) 18:27:14.86

>>353
これを見て、翻訳機能をオンにしてみたけど、
英語の方が頭に入るレベルだった

2018/12/10(月) 19:10:43.51

gmailの翻訳はよく分からんが妙に悪い
開発周りのページは大分読みやすくなった

**デフォルトの名無しさん** (JP 0Hd3-k/Y9) · 2018/12/11(火) 19:59:03.01

ganの生成モデルがよくわからないんだけど
潜在変数から画像を生成するのとかどういうことなの？

2018/12/11(火) 20:46:39.83

つまりそういうこと

2018/12/11(火) 21:46:54.89

AI白書発売されましたな

2018/12/11(火) 23:44:44.51

>>352
あった、あったw
確率で区別するって意見が大体だったっけ
自分もそれでいいじゃんって思ってた

リンク先読んでもよくわからなかったけど
そんな単純な話じゃないみたいだね

2018/12/12(水) 00:49:41.77

ロジスティック回帰とかSVMみたいに境界決めたいけどそもそも正負両データがないと境界を知りようがないから難しいということ

2018/12/12(水) 01:28:26.70

最近お仕事で機械学習しなきゃいけなくなってkaggleとかで勉強してるんだけどなんかものすごくもやもやする
ブラックボックスをいじって結果だけ出てくるの眺めてまたいじって改良されたらそれで良しみたいな……
プログラミングの問題みたいにきっちり正解があるとか、システムにこういう機能が必要だからそれを満たすコードを考えるとかならすっきりするのさ
なんていうか正解に至る道を自分で見通せない気持ち悪さみたいな

2018/12/12(水) 01:30:01.87

いやそもそも正解も無いか。そこが気持ち悪いのかな
100%当てるモデルとかできるならいいんだろうけど現実的にないだろうし

2018/12/12(水) 02:29:18.56

データには固有の性質があって、それを長く扱っている技術者だけがそういうことを知ってる。 kaggleで匿名化されてるデータやってても知見として得られるものないよ。 kaggleはそのへんが問題なんだよね

2018/12/12(水) 09:07:37.01

キュウリの等級付けとかだ

2018/12/12(水) 09:28:45.56

リンゴの分別だろ

2018/12/12(水) 10:26:06.15

100%的中させる必要などそもそもない
人間だってミスして例えばメーカーでの検査ミスなら不良品を流通させてしまう
機械学習システムによって人間より十分に精度や実行速度が上がったりするなら明らかにメリットがある
にも関わらず人間より圧倒的に少ないミスを過剰に問題視する方がおかしい
また、ミスの原因がはっきりしないのが問題だと言う意見もあるが人間のミスの方が
どう考えても原因は曖昧であり、現在導入されている機械学習システムは所詮回帰分析を複雑化したものに過ぎず、
その係数を正確に知れる分だけよっぽど論理的に説明ができる

2018/12/12(水) 10:40:58.39

工業製品の検査は不良率○％以内って厳格に決められてるよ。

2018/12/12(水) 10:51:40.00

規定の不良率に収まるように学習すれば良いだけ

2018/12/12(水) 12:17:21.65

https://qiita.com/yoshizaki_kkgk/items/4663148a2b3ca078ddbc

>環境の違いにより、設定がうまくいく場合があります。

warota

2018/12/12(水) 12:39:41.80

ヒヨコの雌雄は分からいけど猫と犬の見分けには自信あるぜ

2018/12/12(水) 12:41:14.51

我々はまずゴミの分別をちゃんと出来るようにはならねば。渋谷区45種類らしいぞ

2018/12/12(水) 14:50:33.13

＞渋谷区45種類

どこの基地外が考えたんだか

2018/12/12(水) 18:35:23.09

仕事を増やせる優秀な公務員が考えました

2018/12/12(水) 19:48:32.73

変態区

2018/12/13(木) 08:28:05.50

>>361
時間があれば
確率論→統計学→機械学習
と進めるべきなんでしょうね。

でも今どきはいきなりPythonですからね。
ま、客も分かってる人いないから。

もやもや解消には仕事を辞めて
6年間ほど死ぬほど勉強する必要あります。

2018/12/13(木) 13:41:27.22

そこまでかかるかよｗ文系かよｗ

2018/12/13(木) 14:24:09.33

6年あれば医者になれるな

2018/12/13(木) 15:21:08.19

医学部に受からんと、それに年寄りはマイナス加点だからね

2018/12/13(木) 19:18:29.34

確率論/関数解析/微分幾何はほしいな

2018/12/13(木) 19:25:15.84

それらプラス
信号処理、システム同程、現代ロバスト制御、カーネル法、統計学、情報幾何あたりやっときゃよい

2018/12/13(木) 19:26:35.52

だいたいの人がれべすぐえ積分です挫折するだろうけど

2018/12/13(木) 20:50:05.49

と人生挫折した奴が主張しております

◆QZaw55cn4c (ﾜｯﾁｮｲ aa60-D8NS) · 2018/12/13(木) 20:55:33.92

>>381
測度論的アプローチは万人に必要ですか？

2018/12/13(木) 21:20:30.21

機械学習に数学は必要なし
したがって測度論など機械学習には全く必要ない

2018/12/13(木) 21:38:04.29

必要ないね

2018/12/13(木) 21:40:00.90

関数解析はやれよ

2018/12/13(木) 23:33:41.33

みんな使ってるPCのスペックってどんなもん？
ボーナス入ったし買い換えようかと
今はi5、SSD128GB、メモリ8Gの学生用みたいなスペック

2018/12/13(木) 23:41:00.57

ちょっと訂正だな。
確率論は要らない。

2018/12/13(木) 23:57:53.09

>>387
法人向けはずっと上のものがある
dellのprecision tower7000シリーズとか
corei9がショボく感じる

2018/12/14(金) 07:17:53.41

>>384
だな

野球やるのに、バットを作り方を知る必要はない

2018/12/14(金) 08:44:54.09

ルベーグ分かってるけど機械学習には要らんなってことなのか、ルベーグ分からんけど機械学習で特に困ってないってことなのか

2018/12/14(金) 09:01:46.14

完備な距離空間作るために測度論が必要ってとこだけ理解できればもう要らない。同様の理由で確率論も要らない。
あと入りそうなのは確率微分方程式とかるまんふぃるたぐらいか。まあ、後者はリースの表現定理を理解できれば十分。

2018/12/14(金) 09:39:39.92

カルマンフィルターを知ってる俺って偉い、というところまで読んだ

2018/12/14(金) 09:41:22.54

リースの表現定理は使いこなせるようになることをお勧めします

2018/12/14(金) 10:08:11.53

>>393
横から訂正するよん
こんなことを知ってる毎月残業60hのエンジニアサラリーマンの俺ってば凄い

2018/12/14(金) 10:10:27.43

すべてが中途半端（笑）、お後がよろしいようで

2018/12/14(金) 12:12:47.64

本当の一流なら例えば料理人だとラーメン作るのに小麦畑の土から拘るからな
単に腹を満たすためならそんなの不要だが本気でトップ狙うならそこまで考える必要がある

2018/12/14(金) 13:35:21.72

本当の一流は革新的で広く使われるモデルを提案できる人

2018/12/14(金) 14:09:36.56

そりゃイノベーターですな
そこ望むなら最低でも原理ぐらいは理解してないとだめやろね

◆QZaw55cn4c (ﾜｯﾁｮｲ aa60-D8NS) · 2018/12/14(金) 20:10:48.33

そんな難しい話は私には縁がありません
ひたすらお願いすることといえば、やさしい解析学ともっとやさしい線形代数の教科書を教えてほしい、ということです、ちなみに佐武で撃沈しています…

2018/12/14(金) 20:12:23.40

結果がでるかどうかの話だよ