【統計分析】機械学習・データマイニング21

2018/11/04(日) 14:34:36.02

機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング20
https://mevius.5ch.net/test/read.cgi/tech/1533635797/

VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured

2018/11/26(月) 00:20:06.09

大学教授は縁故採用が多い。
公募は形式だけで募集する前から決まってる。
そんなコネ馬鹿教授ばかりだから
新しいものなど認める訳がない！

まず馬鹿だから理解できないし、
新しくて有効なものを認めてしまうと
己の地位低下を招くから。

2018/11/26(月) 00:57:19.62

講座のボスの言うとおりにしてれば丸く収まるからなw 飽きたらない優秀な人はみんな外に出ちゃう

2018/11/26(月) 01:23:54.55

工学系だとFEMの理論知らなくても解析できるしAIもそんなもんでしょ

2018/11/26(月) 01:24:22.41

自然言語処理系に強いツールを紹介してもらえませんか？
とりあえず、文書の分類や意味の解析などをやりたいです。

2018/11/26(月) 01:49:46.40

>>261
GUIのアプリがいいのかなんらかの言語のライブラリがいいのか詳しく

2018/11/26(月) 01:58:36.86

>>262
プログラムを使って色々カスタマイズしたいので、ライブラリーがいいです。
TensorFlowの自然言語処理拡張ライブラリーみたいなものがあれば・・・

2018/11/26(月) 02:17:09.45

結局、機械学習の専門家ではなく、データを管理してる現場担当の人間がマイニングするのが一番効率がよい

学生らに言いたいがデータサイエンティストなんてなるなよ。企業じゃ使えないから

2018/11/26(月) 05:27:13.22

>>263
自然言語処理ライブラリが弱いのが tensorflow の弱点。
そのために pytorch が急伸した経緯がある

2018/11/26(月) 08:18:19.26

>>265
なるほど

2018/11/26(月) 13:45:20.79

>>257
ほんそれ
叩いてつぶすのが得意

2018/11/26(月) 14:14:51.69

はやりものをありがたがるという意見ｗ

2018/11/26(月) 14:45:35.00

医療に機械学習などデータサイエンスを結び付けて、
効率的な医療を実現するような仕事をしたいと考えている学生ですが、
医学部医学科の学生が（医学の勉強はもちろんやるとして）統計や機械学習などを学ぶことに意味はあると思いますか？

2018/11/26(月) 15:03:00.03

医は算術なり、効率的に点数を稼ぐには重要だろｗ

2018/11/26(月) 16:13:25.97

医者なら統計は知ってそう。薬学では統計使いまくると思いますよ。
技術者に丸投げしないためにも勉強した方がいいとおもいまふ。
以上、雑魚エンジニアの一般論的意見でした

2018/11/26(月) 16:57:02.70

>>263
本当にDeepな手法でやる必要がある話なのかをまず考えてみては
TF使ってるくらいだからPythonで書いてるんだろうしgensimで実装されてるアルゴリズムを試してはどうだろう
分散表現を作るだけでも役に立つだろうし

2018/11/26(月) 17:00:39.11

>>269
https://www.amazon.co.jp/dp/447803947X

2018/11/26(月) 17:59:58.13

開業医なら効率的な医療だって何だって自由にやれるんだろうけど、勤務医なら組織が大きければ大きいほど相当偉くなるまでは裁量なんてほぼなさそう

2018/11/26(月) 19:12:58.72

Coloboratory使ってる人いる？
TPU使えるから12時間限定でも問題なさそうだけど

2018/11/27(火) 11:40:07.25

花の画像から、花びらやがく、茎などの部位を機械学習で着色する仕組みを考えています

今は手作業で200枚くらい正解データがあって、
花びらを赤、おしべめしべを黄、がくを緑、茎を青といったルールで色づけています
花は身近なタンポポなど野草がほとんどで18種類です
データが圧倒的に足りていないのもわかっているので
特定の花だけに限定して正解データを手作業で作る作業もしています

文字・数字認識や物体検知の課題では、画像と正解ラベルをセットで学習させていますが
私の課題の場合、ピクセル単位でどこが花びら=赤、茎=青、といったデータも作る必要があるのでしょうか？
線画を着色するGANsの仕組みが近いかなとも思い調べたのですが、
着色範囲がぼやっとしていて、私の課題にはそぐわないように感じました

実現可能性が低いのは承知のうえで、こういった課題の場合
どういう仕組みが考えられるのか、お詳しい方アドバイスいただけたらうれしいです
スレ違いでしたらすみません

2018/11/27(火) 12:26:51.02

>>276
セマンティックセグメンテーションでググれ

2018/11/27(火) 12:53:54.47

>>276
少しくらい勉強してから人に尋ねるべし

2018/11/27(火) 13:48:25.76

>>269
逃亡、終了

2018/11/27(火) 18:32:10.86

>>277
キーワードとても助かります
やはりピクセル単位でラベル付けが必要ということでしょうか
道路の白線を教師なし学習でやってみたという事例も読んでみましたが
元画像の色情報が重要ということで、いろいろな色がある花の場合難しいかなという印象でした
とりあえずこのアプローチで試行錯誤してみます
ありがとうございます

>>278
精進いたします

2018/11/27(火) 19:30:07.16

>>276
pix2pixでセマンティックセグメンテーションするのはどうだろう？
データが大量になくてもそこそこ出来る(200枚だと流石に少なすぎるかもしれないが)

**デフォルトの名無しさん** (JP 0H87-Kv/S) · 2018/11/27(火) 23:10:55.14

>>269

機械学習を活用しようとしている一研究医師としては、意味があるとは思う。

ただ未来ではなく現在の機械学習技術をベースに話をすると、有用な成果を出すためには
機械学習の知識より医療の経験の比重が高い印象。

現在の機械学習技術は活用できる範囲がかなり限定的なため、何でもかんでも医療データを
突っ込めば成果が出るというものではない。

学生なら趣味として機械学習の本のサンプルプログラムを動かしつつ、応用が利く臨床医
となるために医学自体の勉強をより頑張る必要があると思う。

2018/11/27(火) 23:24:06.87

>>281
ありがとうございます
単語で調べたところ、猫が含まれた画像から猫の範囲を抽出する、という事例を見つけました
セマンティックセグメンテーションともに、自分なりに少し時間をかけて理解に努めます

2018/11/28(水) 00:02:35.74

あくまでメインは専門に重点置いたほうがよい
機械学習はサブ

2018/11/28(水) 02:58:07.34

統計学の拡張として機械学習の概論を知っておけばいいというだけ。
細かい技術を知る必要は無い。

2018/11/28(水) 09:47:53.02

点数が付くようになったらセミナー（よくある１０万ぐらいで２日の講習）を受けて知識をつければいいんじゃね

2018/11/28(水) 09:58:25.11

>>286
ついでに資格も取れる合宿は有りますか

2018/11/28(水) 11:01:55.70

OracleやCADの講習なら100万overがデフォ

2018/11/28(水) 11:50:17.77

>>287
富士山麓でマラソンするやつかｗ

2018/11/28(水) 18:16:24.09

Amazonが社内用に提供していた機械学習コンテンツ群を無料で公開開始
https://gigazine.net/news/20181127-aws-machine-learning-university-available-free/

2018/11/28(水) 20:16:20.61

アマゾンのレコメンドシステムが
未だにクソの邪魔ものでしかないのに
クソのような教材に決まってる。
まったく興味ない

2018/11/28(水) 21:41:20.54

グレースケールの画像を転移学習させたいのですが、良いデータセットないですかね？
グレースケールのはMNISTくらいで他はカラーの画像のデータセットしか知らないのですが

2018/11/29(木) 00:58:15.69

カラーをグレー化すればいいじゃないか

2018/11/29(木) 01:43:19.09

Y信号を作れよ

2018/11/29(木) 08:02:16.54

今さらコンポジットかよ

2018/11/29(木) 08:55:20.96

TF probability をやり始めたけどさっぱりわからん… どうすりゃいいのw

2018/11/29(木) 09:23:56.01

諦める

**デフォルトの名無しさん** (JP 0Hff-Anpr) · 2018/11/29(木) 18:02:48.55

angularとかのほうがわけわからん

2018/11/29(木) 18:44:11.79

angular なんか分からなくないだろｗ

>>296
pytorch のやつやれ

2018/11/29(木) 20:38:04.37

angular momentum とは角運動量のことである

2018/11/30(金) 02:11:39.26

交差検証についてなんですが、例えばアイリスデータでSVMで3分割の交差検証した時(3分割の平均が)94%～97%ぐらいばらつきがあると思うのですが3分割の平均をさらに100回の平均とかして評価するって感じでいいんですかね？

2018/11/30(金) 03:53:30.13

データが減ると更にバラツキが増すよ

2018/11/30(金) 06:15:10.87

交差検証はそれが目的じゃないから

2018/11/30(金) 08:44:44.60

>>303
研究とかで発表するときはどういう値を使ってるのですか？

2018/11/30(金) 10:54:28.88

Microsoft Facebookの人工知能ツール「PyTorch」への開発協力
https://aitimes.media/2018/11/20/1080/

2018/11/30(金) 13:00:06.59

例えばkaggleとかなら初めからトレーニングデータとテストデータが分かれててテストデータとの答え合せで数値としての精度を用いてます。
自分で1つのデータを用いて精度を出したいときに、データが少なくてテストデータの選ばれ方にかなり影響を受けるというようなとときにはどういう風な値を用いればいいのかっていうのが聞きたいです。

2018/11/30(金) 13:02:03.08

>>306
テストデータの選ばれ方によって予測精度が全然違うみたいな時です。

2018/11/30(金) 14:10:30.81

バイアス・バリアンスでグクってみな
過学習気味だと思う

2018/11/30(金) 16:23:37.26

扱ってるデータの性質上データ数が少ないのは仕方ないのです…
今書いてるコードなんですが、
sklearnのcross_val_scoreでcvパラメータに層化分割を渡してます。(StratifiedKFold(n_splits=3, shuffle=True)
これでfor文で例えば100回回すと3つセットのスコアが100個出てきますよね？それで3値の平均のさらに100個の平均って感じで評価基準にしてます。3つセットのスコアの分散がそこそこ大きいのは仕方ないと思ってます。
これで良いのですかね。

2018/11/30(金) 20:22:51.78

もしかしてデータ数は変数より少ない？

2018/12/01(土) 01:13:01.62

>>310
そんなことないですが

2018/12/01(土) 07:22:28.11

仮にだが、同じテストデータを入力したとして、都度異なる結果を得るかもしれない。
そうなら気にしない。

2018/12/01(土) 13:45:07.60

>>305
PyTorchがさらに広がりそうだな

2018/12/01(土) 16:00:36.28

https://pbs.twimg.com/media/Do12HK4U8AASiZd.jpg:large

2018/12/01(土) 16:03:42.40

>>314
まんま俺じゃねーか！
まぁケース買い直して難を逃れたけどな

2018/12/02(日) 12:37:35.98

>>314
そのアニメおかしくないか？
その方向にガッ！とかいってひっかかるかな？

2018/12/02(日) 15:13:17.02

おかしいのはこれがアニメに見える目の方やで

2018/12/02(日) 15:26:02.69

確かに。
おれは疲れているんだよ。
おれはおかしくなってる。

2018/12/02(日) 18:51:57.95

初めて来たけど新しくて注目されてる分野だけあってスレも活気があっていいね

2018/12/03(月) 07:56:04.08

新しい理論ではないけど、
計算機の進化で計算できるようになったのと、
データ分析が役に立つことが認識された
ことが大きいと思う。

理論として21世紀に出てきたものは
ほとんどない。
DLなんて50年前の理論たし。

2018/12/03(月) 11:38:00.85

そのとおりだよ

2018/12/03(月) 11:39:08.74

基礎理論は昔に提唱されてたけど、実際できるようになってからの進歩は目まぐるしいよ
alphaGoとalphaGpZEROには恐れ入った

2018/12/03(月) 12:28:26.08

基礎理論とハードのスペックが揃えばそれだけで使い物になるわけじゃないからな

2018/12/03(月) 12:44:09.72

>>320
ほんそれ

2018/12/03(月) 12:45:53.17

>>323
今後はエクソソームだな

2018/12/03(月) 13:03:16.97

ディープラーニングのG検定ってどうよ？
公式テキスト買って読んでるわ。

2018/12/03(月) 13:58:43.26

検定で心が安らぐ（笑）

2018/12/03(月) 14:00:36.39

G検定でバーニーおじさんのルールってのが出たらしいけど、ググってもG検定関連の記事しか出ない
バーニーおじさんの出所ってどこなん

2018/12/03(月) 15:16:45.90

>>328
たしか、テキストに出てたわw

2018/12/03(月) 20:49:11.45

>>233
落ちた人と比べたら受かった人はそれなりに理解していることが判るだろ
2級に合格した人が1級の能力を持っていないとは言えないけど
2級の能力を持っていることは判る

何も受けていない人は何も判らない
ゼロかもしれないし1級を超えているかもしれないし
判断する側からしたら区間推定の範囲を狭めることができる

2018/12/03(月) 20:51:44.68

人工知能の検定とか効果あるのか？
情報処理関連の国家資格のほうが有益だと思うよ

2018/12/03(月) 20:56:58.92

試験を受ける・受けないは自由だが機械学習専門で仕事にしてるような人が2級すら受かる能力がないとしたら大問題

2018/12/03(月) 21:12:21.84

資格は座学だからなぁ
本当にAI実技が出来るのかと

どっちかというと「会社で○年間人工知能の実務してました～」
のほうが面接受け良いぞ

あとコラボラトリーやっと動かせた
思ったより簡単だったが
アップロードが少しめんどいな

2018/12/03(月) 21:19:12.68

テストでは記憶が試されるが
別に覚えてなくても読んでわかれば全然問題ないはず

2018/12/04(火) 08:05:16.33

>>334
自分で判ってると勘違いや自己暗示をかけているだけかもしれない

2018/12/04(火) 08:42:28.96

暗記しなくても調べれば分かるんだからいいっていうのは稀にしか使わないような複雑な公式とかならそれでいいんだけど
例えば統計検定2級までのような基礎的な内容に関してはそれではいけないだろう

2018/12/04(火) 09:38:24.31

>>330
お前の理解はその程度かｗ

2018/12/04(火) 20:22:10.65

DLの検定はサンプルみただけでイヤになった、
と理論の先生が言ってた。

2018/12/05(水) 00:53:53.91

RX480で機械学習したいけど
plaidmlが認識してくれない

openclってRadeonソフトウェアいれてるだけだと動かないとかあります？

2018/12/05(水) 16:28:35.00

>>331
ほんそれ

2018/12/05(水) 16:29:14.67

>>334
むしろ後者の方が大事

2018/12/06(木) 14:37:25.24

ニューラルネットワークを利用して音楽を作曲する試み
https://gigazine.net/news/20181206-neural-net-music-generator/
聴くとなんかイライラするw

2018/12/06(木) 21:05:12.09

優れたAI開発者とは何ぞやと問いに対して、
海外では、アルゴリズムを開発できる人、Kaggleで上位を取れるような分析者、に加えて、
課題解決の為にAIを実装できる人というのが入ってくるが、
日本企業は、要件定義と開発は別物だという認識が強いのか最後のが出てこない。

つか、提案できるやつを引き抜いてくれないので、
導入事例が豊富なモデルの二番煎じしか出来ないのはつまらん

2018/12/06(木) 21:13:32.62

ユーザー側が技術者に要件定義させないからな
知能指数がだいぶん違うだから先方の業務に関してもある程度的確な判断できるってことがわかってない

2018/12/06(木) 21:52:05.54

モデルをユーザー指定にさせてるの？
それはまずいだろ
俺は要求精度だけだわ

2018/12/06(木) 22:00:55.11

たぶん誰もそんな話してないと思うが

2018/12/07(金) 00:41:20.12

>>343
流行りのAIを採り入れたいけど結局は保守的ということかね

2018/12/07(金) 00:50:03.54

プログラム書いたことないSIerが作った要件に従って下請けプログラマーがコーティングするだけなんだよな

2018/12/07(金) 15:08:02.31

>>342
このテのものは現れては消えるな

2018/12/07(金) 15:09:15.97

>>344
プライドωが許さないんだろうωω

2018/12/07(金) 23:03:52.71

クロスエントロピー誤差の値がマイナスってありえないよね
本の通りにDCGANくんで学習させたら識別器の誤差がマイナスになるときあるんだけど

2018/12/08(土) 00:28:15.02

これ誰か質問してなかったっけ？
http://www.atmarkit.co.jp/ait/spv/1812/07/news049.html

2018/12/09(日) 05:39:24.92

知らないうちにクロームの翻訳機能進化してんな機電系技術記事みたいな簡単な英語ならほとんど問題ないくらいに訳せてる

2018/12/10(月) 18:27:14.86

>>353
これを見て、翻訳機能をオンにしてみたけど、
英語の方が頭に入るレベルだった

2018/12/10(月) 19:10:43.51

gmailの翻訳はよく分からんが妙に悪い
開発周りのページは大分読みやすくなった

**デフォルトの名無しさん** (JP 0Hd3-k/Y9) · 2018/12/11(火) 19:59:03.01

ganの生成モデルがよくわからないんだけど
潜在変数から画像を生成するのとかどういうことなの？

2018/12/11(火) 20:46:39.83

つまりそういうこと