【統計分析】機械学習・データマイニング26

2019/09/15(日) 09:23:06.34

機械学習とデータマイニングについて語れ若人

＊機械学習に意識・知能は存在しません。
人の意識に触れたい方はスレ違いです

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
Machine Learningを用いた論文一覧2018
https://shiropen.com/seamless/machine-learning/2018
2017年のディープラーニング論文100選
https://qiita.com/sakaiakira/items/f225b670bea6d851c7ea
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング23
https://mevius.5ch.net/test/read.cgi/tech/1551352040/
-
【統計分析】機械学習・データマイニング25
https://mevius.5ch.net/test/read.cgi/tech/1561568018/

【統計分析】機械学習・データマイニング24
https://mevius.5ch.net/test/read.cgi/tech/1556674785/
-
VIPQ2_EXTDAT: checked:vvvvvv:1000:512:----: EXT was configured

VIPQ2_EXTDAT: checked:vvvvvv:1000:512:: EXT was configured

2019/12/09(月) 13:55:54.49

>>681
保険会社かなんかが姓名ランキングしてるから
まずは使える文字からランダムして
よくある苗字や名前になってたら再抽選

2019/12/09(月) 15:05:03.48

ディープなことするよりマルコフ連鎖とかでやった方が良さそうだけどな

2019/12/09(月) 15:14:40.70

条件後出しは失格

2019/12/09(月) 16:25:34.13

ああ、同人誌みたいなライトノベルみたいなどうしようもないやつに使いたいのね
乱数でいいんじゃね？

2019/12/09(月) 19:24:47.20

ランダムな個人情報を生成するプログラムなら既にあるが
テストとかに使うらしい

2019/12/09(月) 21:39:53.12

人名ジェネレーターで良くない？
辞書リストと乱数で成り立っていてAI不要な

2019/12/10(火) 04:20:23.19

デスノートのいじめが発生しないようにって配慮スゲーって思ったな

2019/12/10(火) 14:05:49.73

阿部進次郎

2019/12/11(水) 19:37:08.57

ご質問なのですが、機械学習の回帰問題において、教師信号が特定の範囲内にある時の重みを重くするような損失関数はありますでしょうか？

私が解きたい問題においては、教師信号の値が0~1の間の値を取るように基準化しているのですが、
例えば、RMSEを下記のようにカスタマイズした損失関数を使用したいのです。

False Positive:学習器の出力は0～0.2の範囲だが、教師信号は0.2より大きい　or
学習器の出力は0.8～1の範囲だが、教師信号は0.8未満

False Negative:教師信号の出力は0～0.2の範囲だが、学習器の出力は0.2より大きい　or
教師信号は0.8～1の範囲だが、学習器の出力は0.8未満　　

とTrue negativeとFalse Negativeの場合にのみ損失関数を計算するか、重みを大きくした損失関数を使いたいのです。

もしご存じでしたら、この損失関数を使用可能な学習器やライブラリなどを教えていただけますでしょうか。
ライブラリなどが無くても最悪論文などがあればそれでもかまいません。何卒ご教示をお願いいたします。

2019/12/11(水) 21:41:26.98

わかんない

2019/12/11(水) 21:52:30.04

知らない

2019/12/11(水) 22:27:12.29

andで繋げたら？

2019/12/11(水) 22:52:42.17

損失関数自分で定義すればいいじゃん

2019/12/12(木) 00:35:12.72

>>690
まず教師信号とはなに？ベクトル？時系列？
＞教師信号が特定の範囲内にあるとき…
ヘビサイト関数(ステップ関数)の重ね合わせで表現可能

＞RMSE
二乗平均？(RMS)
よくわからん。一般的でない。

＞false positive, false negative…
応答だけ書かれてもわからん。±で4パターンあるだけ？

2019/12/12(木) 06:56:14.26

>>690
fpに分類をよせたいということであれば重み付けカッパ係数で評価する方法はある。
ttps://qiita.com/tand826/items/4d1fb2045f2b48d21b7d

求めているものと全くちがうかも

2019/12/12(木) 07:02:30.85

理解してない人が繰り出す小手先の改善ほど効果のないものはない

2019/12/12(木) 07:37:25.30

>>695
RMSEは一般的だけど。。

>>690
やり方は主に2通りある
一つはサンプルをいじる方法、もう一つは関数をいじる方法だけどもっと詳しく聞きたい？

2019/12/12(木) 08:02:27.31

うんこレベルに無知なくせに回答しようとするゴミって
どういうメンタルなんだろうなw
機械学習は分かるけどウンコの考えは謎だわ

2019/12/12(木) 09:22:48.99

文句いうだけのうんこよりマシって程度

**690** (ﾍﾟﾗﾍﾟﾗ SD4b-uKDx [110.163.140.118]) · 2019/12/12(木) 12:56:19.08

皆さん、お忙しい中返信をありがとうございます。

>>698
知りたいです。是非教えてください。
>一つはサンプルをいじる方法、もう一つは関数をいじる方法だけどもっと詳しく聞きたい？

2019/12/12(木) 17:43:51.02

>>701
サンプルをいじる方は2パターンあって、重みを付けたい範囲のデータを水増しして増やすか、逆に重みを付けたくない方のデータを間引くかのどちらかを行う

関数をいじる方は、使ってるライブラリのオプションにweightみたいなのがたぶんあるはず。無ければ自分で実装しかないんじゃないかな

2019/12/12(木) 21:49:18.95

違う話になってない？

2019/12/12(木) 22:07:40.49

損失関数を変えるってより真の目的は特定のデータ範囲だけ重み付けしたいということだと解釈したけど、違ってたらすまん

2019/12/12(木) 23:49:42.64

>>702はあほか
ただステップ関数だけやん

2019/12/12(木) 23:50:24.59

訂正
>>702はあほか
ただステップ関数かけるだけやん

2019/12/12(木) 23:52:33.17

>>702はうんこにも負けるお馬鹿さん

2019/12/12(木) 23:58:44.94

>>702の方法を詳しく聞きたいです。
どのレベルのものが出てくるのかな？

2019/12/13(金) 00:03:20.51

>>698
＞やり方は主に2通りある
一つはサンプルをいじる方法、もう一つは関数をいじる方法だけどもっと詳しく聞きたい？

聞きたいです。
どのくらい短いコードになりますか？

**690** (ﾍﾟﾗﾍﾟﾗ SD4b-bWwy [110.163.140.118]) · 2019/12/13(金) 00:07:11.37

>>702
ありがとうございます。私が阿保でした…。色々と難しいことを考えていましたが、普通に分類問題における不均衡データの扱いと同じように考えれば良いのですね…。

2019/12/13(金) 00:10:21.56

>>698いわく方法は２つあるらしいけど、僕ちん一番始めに思い付かなかったな。長過ぎて。

2019/12/13(金) 00:21:47.33

>>698のどや顔のわりに出題者の意図を組んだ回答になってなくて笑うわ

2019/12/13(金) 00:28:36.82

>>699は>>695の始め四行を理解できましたか？

おそらく意図に沿った最適解ですよ？

2019/12/13(金) 00:52:32.77

ところでさ、>>690は>>695の最後の一行だけで解決できたって認識はある？

2019/12/13(金) 08:26:43.93

>>710
ID変わっちゃってるけど

>>698は俺で、>>702で回答したつもり
そうそう不均衡データ知ってるなら話は早い。それと同じに考えればいいんじゃないかな

2019/12/13(金) 08:47:13.93

オライリーのPythonによるデータ分析とデータサイエンスハンドブックってどっちがおすすめですかね？

2019/12/13(金) 11:10:40.03

前者

2019/12/15(日) 11:25:39.35

オライリー本の機械学習本大杉
俺にも初心者向けのお勧め教えてほすぃ
趣味でやる程度で、プログラムは問題なくて数学はソコソコ程度でやんす

2019/12/15(日) 11:27:48.03

どうせ無理

2019/12/15(日) 16:36:37.82

夢見る機械学習
夢見る深層学習

あたり

2019/12/17(火) 17:57:23.97

neuripsは、にゅうりっぷす、でいいの？

2019/12/17(火) 21:22:33.32

夢見るって何だよw

2019/12/18(水) 08:37:06.46

アンドロイドは電気羊の夢を見るか?　フィリップKディック

2019/12/19(木) 16:18:27.57

>>723
この板では常識みたいな本のタイトルだよな

2019/12/19(木) 19:13:19.10

攻殻機動隊は？

2019/12/19(木) 20:08:23.64

>>725
アニメという時点でダメですね、紙の本を読みなよ

2019/12/19(木) 20:36:41.48

コミックです。。。

2019/12/22(日) 12:35:04.23

pythonの入門書を終えてtensorFlowとかkerasとか学びたいんだけど、
よい入門書教えろください。 orz

2019/12/22(日) 13:30:25.72

>>728
いきなり深層学習フレームワーク触るより深層学習の基礎勉強しなさいよ
つ　ゼロから始める～

2019/12/22(日) 13:47:20.09

せんせー、pythonの文法知ってるだけの人がいきなりゼロからはじめるやって分かるんですかー

2019/12/22(日) 13:50:53.01

tensorflow触ったって理屈何も分からんでしょ

2019/12/22(日) 14:19:38.73

tensorflowに触ってごらん、AIだよ

2019/12/22(日) 14:24:41.20

>>729
説明不足でした。
ニューラルネットで修士号とってますが、
全然関係ない分野で働いてたので、
プログラムのリハビリ状態。

統計学と昔の機械学習は理解しているので、
新しいトピックと実際の動かし方を学びたい。

2019/12/22(日) 14:32:55.35

統計学は応用数学だが
機械学習に数学はいらない

2019/12/22(日) 14:38:25.43

>>734がｲｲ（・∀・）こといった！

2019/12/22(日) 14:54:20.51

何をどう調べてどこまで身につければ十分なのかを自力で把握できなければダメ
何も知らない中学生・高校生ならまだしも、大学出た社会人が「何から学べばいいか？」とか聞くこと自体がアウト

2019/12/22(日) 15:02:08.75

いや、Tensorflowの全体像を知るための定番の入門書を知りたかっただけなんですが・・・。

2019/12/22(日) 15:13:24.42

>>733
「scikit-learnとTensorflowによる実践機械学習」などどう？

2019/12/22(日) 15:40:47.34

>>737
TensorFlow2.0やりたいなら本はほとんどない
これから2.0しか使わなくなるから今ある1.0の本を読むべきかと言うと微妙

2019/12/22(日) 15:55:54.03

>>738
ありがとうございます。チェックしてみます。

2019/12/22(日) 15:58:04.45

>>739
なるほど。
現在2.0を学ぶんなら洋書ということになるのでしょうか？
ひょっとして、洋書もまだ出てなくて、ネットで情報を漁るしかないのかな・・・。

2019/12/22(日) 16:15:13.33

pytorch開発入門が良い

2019/12/22(日) 16:35:38.25

>>742
pytorchなんてものもあるんですね・・・。

Scikit-learn
Tensorflow
dlib
PyTorch

どれから手をつけるのがいいんでしょう？

2019/12/22(日) 16:36:54.74

修士のときはアルゴリズム系の研究をしていて、
あの頃は、みんな一からC言語でコード書いていたから、
完全に浦島太郎状態だなぁ。

2019/12/22(日) 18:28:11.78

>>743
sklearnでいいんじゃない？
仕事内容にもよるけど

2019/12/22(日) 18:45:14.82

>>745
入門書ではsklearn使ってましたね。
とりあえず直近の回帰分析とかレベルだとこれで十分なんですよね。

ただ、流行りのDeepLeariningとかも学んでみたいという欲が出ているのが抑えがたい。

2019/12/22(日) 21:16:41.90

使い物にならない頭の固い浦島太郎

2019/12/22(日) 22:11:05.54

ライブラリ比較サイトで勉強してきました。
直近のしごとはsklearnで事足りそうだし、
Deep　Learningとかの勉強はPytorch使ってみようかと思います。
Tensorflow＋Kerasも気になるけど、Tensorflow2.0の情報が出てから勉強したほうが、
効率良さそうな気がしてきました。

2019/12/23(月) 00:31:24.07

>>741
洋書もほとんどないと思うよ
公式のドキュメント読み込むのが良いと思う

2019/12/23(月) 01:08:38.23

修士持ってて5ちゃんで入門書の情報収集かよ
てかネタだよな？

2019/12/23(月) 07:02:49.05

neural machine translationを試してるけど
ユーザー辞書を指定する方法が分からない

誰か教えて

2019/12/23(月) 07:57:44.83

print('Hello World')

2019/12/25(水) 20:19:54.82

>>748
普通にtensorflowやっとけ。
どうせ2.0でても1. 系統との違いみたいな説明しかされんから。

2019/12/25(水) 20:56:16.29

やるならkerasがいいよ
モデル構築部分はほぼkerasと同じ感じに書けるようになった
1.0の計算グラフはユーザーから意識することはなくなったし
それを覚えても意味はないと思う

2019/12/29(日) 10:57:12.10

NICTはなぜオープンソースで公開しないんだろう

MSやGoogleやFacebookはGitHubにアカウントを持っていて
研究成果を公開しているのに

NICTもそれらのオープンソースを利用しているくせに公開しない

2019/12/29(日) 11:57:05.52

企業は収益を得る手段がほかにあるけど
研究機関は違うのも関係あるように思う

2019/12/29(日) 12:16:45.48

NASAもジャンル違うけど公開してるし、税金投入してるなら国民に見せた方がいいはずだけど
日本の研究機関は遅れてるんかね
情報漏洩と公開範囲を定義して運用出来る頭脳はよ

2019/12/29(日) 13:53:29.86

現代のIT企業は研究成果をオープンにすることで世界中からフィードバックを貰うことで超速で進化しているんだけど
日本の古典的大企業や研究機関は研究成果を隠すことで他と差別化できると思い込んでいる
GAFA躍進前の時代なら日本式もそれなりに良い方針だったかもしれないが
今の時代ならその隠した研究成果と同等かそれ以上のものがその内GAFAから生まれるだろうから無意味
研究機関がGAFAのようにオープンにした成果を利用した金儲けができないことが問題なのであれば
金儲けできるように日本のローカルルールを変更すればいいだけ

2019/12/29(日) 15:38:02.27

研究機関はどうかは知らないけど少なくとも世界的に大学は公開してるしな

2019/12/29(日) 15:42:26.10

横並びで公開しない暗黙のルールか忖度ありそうね
東大やら普通にイントラにgitlabサーバ建てたりしてた記憶
あの先生より上層部の意識がどうかやねえ

2019/12/29(日) 20:25:01.95

研究スピードがどうしても海外より劣るから、モノを公開しちゃうと置いてかれるんだよ。
日本の研究機関の風土の問題じゃなくて、研究以外もこなさなきゃいけない人達が合間を縫って研究するしかない
日本の科学技術に対する制度設計の問題。

2019/12/29(日) 20:42:28.27

国立の研究所が情報隠すのって
NHKが受信料で作った番組を子会社でDVDで商売してるようなもんだね

2019/12/29(日) 21:52:42.26

論文優先で手が廻らないってとこか
ソース公開も楽じゃないすな

2019/12/29(日) 23:28:34.15

論文で十分に公開していると思うが
ソースも欲しいのか
テクニカルレポートが欲しいのか?

2019/12/29(日) 23:56:49.13

実装公開するのが世界標準

2019/12/30(月) 00:20:35.01

Pythonライブラリの公開とかね
日本も大学はしてるとこあるし

2019/12/30(月) 12:19:39.72

>>762
国民の財産で私服を肥やすNHKはもっと悪質

2019/12/30(月) 12:43:25.39

公開出来るレベルのソース書けてるか、ライブラリ設計する能力があるか、も問題になりそうだけど、その辺も磨くと、ワイのような暇してる野良開発者もOSSなら協力出来るという特典はあるね
正直、研究系のITの仕事はパートタイムの30年前のサーバ管理みたいなのが多くて手伝えん

2019/12/30(月) 13:41:37.17

>>768
ほんそれ
https://megalodon.jp/2019-1225-1001-08/https://qiita.com:443/unico/items/76499d1e20042d929aa1

2019/12/30(月) 15:40:35.39

研究者なら本来ソースが見やすいかとか関係ないからなあ
大事なのは数式の理論だし
日本人はごちゃごちゃどうでもいいことでなんくせつけるし

2019/12/30(月) 15:54:00.51

古い日本人の陰湿さだよな結局

2019/12/30(月) 16:12:34.46

もう日本は終わりだよ
どうしようもない

2019/12/30(月) 16:21:10.72

産総研、JST、NICT、理研あたりは実装公開しろ

2019/12/30(月) 17:47:06.43

>>770
んなこたーない
スパゲッティなコード書かれたら検証も追実験もやりにくくなる
機械学習の論文の再現性がないのは大きな問題になっている

2019/12/30(月) 17:47:44.68

研究報告の本質は再現性の有無を確認してもらうことだ
機械学習分野で言えば都合のいい学習データ、テストデータを使っていて実用上そんな状況あり得ないとか、ハイパーパラメータどう決めたのかとか疑おうと思えばいくらでも疑える点は出てくる
それを払拭する唯一の方法は実際に書いたソースそのものを出すこと
そのソースは最早論文の一部なのだから書いた人にしか分からない滅茶苦茶なものを公開して「公開したのだからこれでいいだろ」などというのはあり得ない

2019/12/30(月) 17:58:08.77

>>775
ソースコード出しても他のデータでの
汎化誤差が小さいかどうか判らなくね？

2019/12/30(月) 18:04:19.52

STAP細胞はありまーす

2019/12/30(月) 19:15:55.84

stap細胞はありました。

2019/12/30(月) 22:05:07.58

企業もIT云々と言われた時代から金を掛けないし人を育てようともして無かったんで伸びないだろ
AIについてソフトバンクの孫が日本は遅れていると吠えてたけどまともな人材すら流れて来てないんじゃないか
企業にとっては若者をいかに騙して利益を吸い取るかっていう分野だろう
日本ではIT土方より土方の方が将来性ある

2019/12/30(月) 23:34:55.91

stanとかPyMCって明らかに統計解析向きでシステムに組み込みづらいけど、
明らかにNNよりベイズの枠組みで変数間の関係を記述する方が優れているので、数学弱者でも自力でアルゴリズムを導出する事なく、kerasみたいにシステムに組み込めるようになる日は来るんだろうか。

2019/12/31(火) 03:09:29.79

研究者のコードは糞で見てられない。
R&D何年かやってたけど、もう関わりたくないなぁ