【統計分析】機械学習・データマイニング19

2018/03/09(金) 18:09:45.75

機械学習とデータマイニングについて何でもいいので語れ若人

※ワッチョイだよん

次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング17
http://mevius.5ch.net/test/read.cgi/tech/1502032926/
【統計分析】機械学習・データマイニング18
http://mevius.5ch.net/test/read.cgi/tech/1507807291/

VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured

2018/06/06(水) 23:08:00.64

Wikipediaコピペは馬鹿にされるからやめたほうがいいよ

2018/06/07(木) 00:41:54.57

機械学習の個々のアルゴリズムには流行り廃りがあるけど統計学に基づく点には変わりないので
最新の機械学習のブラックボックス化された関数使えるより統計学を体系的に学んでいる人の方が長期的には有利

2018/06/07(木) 04:16:51.96

これは?

情報幾何への入門と応用
http://www.sci.osaka-cu.ac.jp/~ohnita/2006/inf_geom/sos_dan/book_0403.pdf

非加法的エントロピーを加法的エントロピーにする方法ーAdS/CFT対応の情報幾何バージョンー
http://www2.itc.kansai-u.ac.jp/~afujioka/talk/tanaka.pdf

2018/06/07(木) 06:24:32.11

CNNとLSTMを"deep"でひとくくりにしていいもんだろうか

2018/06/07(木) 10:15:29.32

>>413
バイトコードにしたからと言ってネイティブ機械語みたく爆速になる訳じゃないよ
for文とかアホみたいに書いてるよりスッキリnumpy使え

2018/06/07(木) 10:17:11.63

>>417
ほんそれ

2018/06/07(木) 18:31:54.55

>>419
いまは実感が湧かないけど、たぶんだけど35歳とか過ぎた頃に違いが出てくるんだろうな

2018/06/07(木) 20:13:26.28

５０過ぎてからだよ

2018/06/08(金) 10:00:08.97

うそです

2018/06/08(金) 14:38:59.67

>>419
わかる

2018/06/08(金) 16:35:10.53

わからない

2018/06/08(金) 19:38:32.54

>>420
情報理論は場合の数の加法性の仮定が前提にあるから使えない。
後者の記事は条件が限定的過ぎて使えない

2018/06/09(土) 17:15:22.94

機械学習のブラックボックス化された関数うんぬんというけど
数学わからない癖に機械学習のアルゴリズムを組んでる
文系エンジニア的な奴はそんなにいないよなあ
そんな入口そうそうない

2018/06/09(土) 18:48:56.36

機械学習ブームがここまで盛り上がるなど予想されていなかったので基礎研究からやってる企業を除いて機械学習の専門家を雇っている企業などほとんどない
バリバリの理系出身だとしても大半は専門外の人間が錬金術的にパラメータ調整してたまたま上手くいっているだけで基礎から理解して使えている人はそうそういない
偶然の産物だろうが適切な出力が得られていればそれで構わないが、基礎が分かっていないと今後新しいアルゴリズムが主流になった時も同様に運任せで錬金術することになる

2018/06/09(土) 19:22:31.21

とブームが終わった頃にいうアフォ

2018/06/10(日) 01:49:54.08

だとしたら、アセンブラ出来ない奴、デジタル回路が組めない奴、はみんな基礎が分かってないから
運任せでプログラムを組むべきじゃないなw

要は、各々の世代でどのレイヤーの知識が重視されるか？なんだと思う
今はベクトル数学や統計学のレイヤーとは離れた技術が上の層にどんどん積み重なっていて
そろそろ分業しないと成り立たなくなる時代が来ている様な気がする

2018/06/10(日) 08:25:10.29

富士通のZinraiとか、金かけて、宣伝しているけど、
国内企業のAIってどのレベル？

某大手企業のを試用した範囲では、ゴミのような出来。
このスレの連中のような趣味でやってるレベルにも達していない。

「偶発的な適切な出力」という表現があるけど、
恐らく、作っている奴は、「適切」の指標すら解っていない。

2018/06/10(日) 08:39:03.72

大手企業つっても零細に丸投げしたの納品したりするから出来がまちまちなんだよ

2018/06/10(日) 08:47:48.39

東芝、NEC、オムロン、富士通、日立
みたいなところの研究所からは
まともな研究が出ているけど
それを商品化するところは丸投げするから
変なのが出てくる

2018/06/11(月) 09:37:38.76

>>436
東芝とNECは会社が危ない。

2018/06/11(月) 09:44:11.75

日本のメーカーは組織が疲労している　P ドラッカー

2018/06/11(月) 10:04:59.45

AIで会社を何とかしたら

2018/06/11(月) 10:10:19.21

AIで会社経営を立て直すには過去の大量の成功・失敗の経営情報が詳細な内部情報とセットで必要であり
それは一社及びそのグループ会社程度の規模では量的に足りなさすぎるので実質的に不可能と考えて良い

2018/06/11(月) 11:25:28.44

三菱、神戸製鋼、・・・

2018/06/11(月) 11:25:56.82

日産も

2018/06/11(月) 12:18:31.90

旧財閥系が全部ダメと

**デフォルトの名無しさん** (JP 0H05-iGaC) · 2018/06/11(月) 12:29:12.99

BIやっても
それを読み解いて
活用できる経営者が居ないとね

2018/06/11(月) 12:42:50.14

AIは魔法ではない

2018/06/11(月) 13:58:40.95

CIしよう

2018/06/11(月) 15:35:31.29

機械学習って、統計学の横に色んなジャンルが派生的に発展していて
縦に発展しているようなイメージがないんだが

流行り廃りで、いま学んだ知識の大半が今後は通用しなくなりそうというか
業界の人たちはかなり悲観的だよね

2018/06/11(月) 15:53:18.80

積み重ねだから役に立たなくなるってことはないよ

2018/06/11(月) 17:56:57.83

派生部分しか理解していない人は流行りが終了すれば新しい流行りを1から勉強し直す
根幹となる統計学が理解できていれば新しい流行りの理解も早いはずなので流行り廃りに対応しやすくなる

2018/06/12(火) 06:43:03.81

大学程度の数学と物理をやっとけ。できるなら修士レベル。後は後からどうにでもなる。

2018/06/12(火) 06:45:11.66

あとからどうにでもなるなら、高卒でもいいだろ。
機械学習に必要な分だけ勉強すれば。

2018/06/12(火) 06:47:10.58

物理関係ないだろ

2018/06/12(火) 06:47:30.25

中卒から始めるデータマイニング

2018/06/12(火) 07:30:35.71

>>451
勉強などやる気さえあれば誰でもできるがそもそも高卒という時点で機械学習エンジニアとしての採用はほぼ閉ざされるから
企業のリソース使わず自力で機械学習でビジネス起こす当てがあるなら話は別だが

2018/06/12(火) 08:09:53.72

数理工学、数学、統計
が一番採用したいけど
そもそも人口が無いから微積と線形代数だけ分かれば後は頑張ってみたいな感じだよ

2018/06/12(火) 08:29:01.32

数学・物理の出身者は、物事を抽象化して捉えるセンスが群を抜いてる。

論理性と違って鍛えることが難しいし

2018/06/12(火) 09:18:08.49

ホルホル

2018/06/12(火) 09:25:47.15

>>456
それほぼ一緒だとおもうが。たとえば、不完全性定理とか数学的抽象度が高いし論理的だろ。

不完全性定理

数学を基盤にし、証明を積み重ねていけば、
いつかは「世界のすべての問題を解決するひとつの理論体系」「世界の真理」に到達できるのではないかと信じられていた。

さて、１９３０年頃のこと。
数学界の巨匠ヒルベルトは「数学理論には矛盾は一切無く、どんな問題でも真偽の判定が可能であること」
を完全に証明しようと、全数学者に一致協力するように呼びかけた。
これは「ヒルベルトプログラム」と呼ばれ、数学の論理的な完成を目指す一大プロジェクトとして、当時世界中から注目を集めた。

そこへ、若きゲーテルがやってきて、「数学理論は不完全であり、決して完全にはなりえないこと」
を数学的に証明してしまったから、さあ大変。

ゲーデルの不完全性定理とは以下のようなものだった。
１）第１不完全性原理
「ある矛盾の無い理論体系の中に、肯定も否定もできない証明不可能な命題が、必ず存在する」
２）第２不完全性原理
「ある理論体系に矛盾が無いとしても、その理論体系は自分自身に矛盾が無いことを、その理論体系の中で証明できない」

http://noexit.jp/tn/doc/fukanzen.html

2018/06/12(火) 11:18:48.03

ゲーデル・エッシャー・バッハ

2018/06/12(火) 13:20:41.70

>>454
実は機械学習のエンジニアの求人は学歴不問のところが多い
バイトから入るという裏技もあるから、やる気さえあれば高卒でも余裕でなれる

独学→バイト→正社員→お金を貯めて研究者

理論的には、無理ではない

2018/06/12(火) 13:24:03.36

あと自分は絶対にやらないけど
上でも言っている人もいる通り、やっぱり物理は出来た方がいいんじゃないか

機械学習＋機械工学で年収2000万ぐらいの求人がちらほらある
たぶん自動車でも作ってるんじゃないか
この分野で突き抜けた年収が欲しければ、機械学習ともう一つ専門分野が必要だな
自分のいる世界とは別世界だけど

2018/06/12(火) 14:15:02.72

脳内

2018/06/12(火) 14:29:37.93

学歴不問って職務経歴だけ見ますって意味だよ。
金貯めて研究者ってどうすんのよ
大学編入するとこから始めるのか？
あと物理と機械工学は別だから。

2018/06/12(火) 16:22:10.97

>>463
>>あと物理と機械工学は別だから。
そこらへん詳しくないから適当書いたスマン

でもバイトで職務経験つけて、そのまま正社員になった奴はうちの会社に一人いるぞ
年齢的に、院試を受ければ、研究者にもなれるんじゃないかな

2018/06/12(火) 17:43:36.74

社名を教えて欲しいわｗ

2018/06/12(火) 17:49:47.48

>>451
高卒には越えられない壁がある
よほど貧乏で大学行けなかったとかでなければ
理解できる頭あれば大学卒業(あるいは修士以上)してるはずで
高卒が高卒たる所以

2018/06/12(火) 17:50:17.97

言うか！
DS系なんだけど、ぶっちゃけネットでググるとすぐ出る
ただ、バイトをたくさん取ってるわりに、フリーターから定着できたの俺が知る限りひとりだけ
他にもいるのかもしれないけど

2018/06/12(火) 17:54:42.86

>>466
毒親もな。連帯保証人無しでは学校も行けない。入院も出来ない。

2018/06/12(火) 17:58:35.69

中高生の時に虐待を受けていたからまともな精神状態で勉強に集中できなかったとか、
まあ色々なパターンがあるよね
高卒から這い上がってくる奴はいることにはいる
そういう奴をまったく見かけないなら、逆にその人が見かけない世界にいるんだろ

2018/06/12(火) 18:04:36.62

理学と工学の違いもわからないのに何語ってんの？

2018/06/12(火) 19:13:14.97

そろそろ、wikiみたいな「集合知」って機械学習で置換できちゃうんじゃないかな
どんなマイナージャンルでも、一人が「こういうキーワードでジャンルの情報集積を」って
指定すれば、入門的なハウトゥや歴史的なインデックスまで作れたり
将来的には検索ワードみたいに随時処理でそれらが出力されたりするんだろうけど、
現段階でも、入力された特定キーワードに関する体系立てた知識の集積は可能じゃない？
たとえば、「ホラー題材のギャグ漫画」くらいだと、概要や歴史的サンプルをまとめられたり

2018/06/12(火) 20:29:53.97

↑人口無能↑

◆QZaw55cn4c (ﾜｯﾁｮｲ d360-EqDK) · 2018/06/12(火) 21:19:31.15

>>471
機械学習は、所詮膨大な過去を根拠にしているだけだから、新しい知恵を生み出すことはできない

2018/06/12(火) 21:31:23.02

>>473
何事かに対して、どういったジャンルに属する話かと判断して、それを総括するフォーマットを
類似記事から引用する学習は可能だと思う
現状でも、Wikiで項目を作る上で「似たような記事」から構成を引用するのが普通だ
そこそこのマイナージャンルでも、テキストとして情報化されてきている
「データ群の前半に集中する情報を要約して『概要』とする」ことや、「年代と頻出で年表的に
フォーマットを形成する」のも可能だと思う
というか、Wikiの各記事においてすでにこういう「情報をまとめる上での構成」ができているんだから
それ自体を機械学習できるはずなんだよ

◆QZaw55cn4c (ﾜｯﾁｮｲ d360-EqDK) · 2018/06/12(火) 21:46:20.13

>>474
＞現状でも、Wikiで項目を作る上で「似たような記事」から構成を引用するのが普通だ
一言で「似ている」というけれども、「犬と似ている」「猫と似ている」は現状の深層学習で実現できるとしても、
「似ているもの同士をまとめる」はまた別ではないか？
このタイプにおける教師データは成立するのだろうか？

2018/06/12(火) 22:16:43.01

>>475
「犬と似ている」と「猫と似ている」は、フォーマットとしてほぼ同じ語り口で記事になってると思う
同じようなフォーマットの記事から、頻出単語や構文を教師データとして、関連する情報として
拾うのは単純に機械学習の範囲だと思うけどなぁ
「同じような単語を同じような語り口で記述している記事」が教師データなわけで

◆QZaw55cn4c (ﾜｯﾁｮｲ d360-EqDK) · 2018/06/12(火) 22:28:20.05

>>476
＞「同じような単語を同じような語り口で記述している記事」が教師データ
メタな構造そのものを教師データにできるものかな？

2018/06/12(火) 22:41:42.13

>>477
むしろそういう「言及」をデータとして扱わないと機械学習の有効性が意味を持たないと思うよ
「○○は△△という意味で□□である」っていう関連を一つの型として学習する必要がある
それをビッグデータから学ばないと、各データを統合で結ぶだけの古典的計算機に過ぎない

◆QZaw55cn4c (ﾜｯﾁｮｲ d360-EqDK) · 2018/06/12(火) 23:07:13.16

>>478
＞それをビッグデータから学ばないと、各データを統合で結ぶだけの古典的計算機に過ぎない
なるほど！

＞「○○は△△という意味で□□である」っていう関連を一つの型として学習する必要がある
二項関係から三項関係への進化は、今は出来ていないんじゃないかな？

2018/06/13(水) 00:31:00.31

Googleが猫の画像を判別させる人工知能を作るだけのために大量の猫画像を必要としたように、
wikiを作るとしたらその1項目毎に猫画像学習と同等かそれ以上の情報をかき集めて学習させる必要があるわけで
話題のcoinhiveみたいに世界中の各人のPCのリソース借りるような方法でもあれば可能かもしれないが特定の企業内だけで実現するには必要な計算資源が膨大すぎる

2018/06/13(水) 05:39:50.82

Googleが画像から猫を判断させたのは、教師なしのニューラルネットワークによる学習だよ
AIによる学習結果は、その本質を理解しているという意味じゃない
「検索結果の中からざっくり中央値を取る」ようなもんだ
「〇〇について、どこの誰がいつから始めてこういう成り立ちだ」みたいなWikiっぽいレイアウトに
まとめるだけなら、既存のWebページと電子化されてる書籍だけで足りるかと
もともとWkipedia自体、外部サイトでの記述や書籍による出展が求められるわけで
そうした情報がちょいちょい間違ってたりするのも現状と同じ

2018/06/13(水) 07:37:49.11

教師なしニューラルネットワーク笑

2018/06/13(水) 07:43:29.10

SOMに教師っていたっけ？

2018/06/13(水) 09:03:40.82

教師なしであってる
somでは無い
ttp://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive/unsupervised_icml2012.pdf

2018/06/13(水) 09:32:05.58

高卒派遣で機械設計やっていますが3年やっても年収300がやっとなので機械学習とPythonを学んで年収500万ぐらいになりたいです

2018/06/13(水) 09:54:44.45

↑ただの雑務係になるのは目に見えて明らかです

2018/06/13(水) 22:49:23.14

付け焼刃の知識は、年収5000万overの人が作った機械学習自動化ツールに置き換えられそうだ。

というか、年収500万ぐらいならpythonだけでも有るだろ

2018/06/14(木) 18:38:38.62

>>487
pythonって日本では需要が無いのでは。

2018/06/14(木) 19:57:01.42

日本の大企業で機械学習やってますと言ってるところはどういう環境で開発してるんだろう？

2018/06/14(木) 21:04:58.22

一口に機械学習といってもいっぱいあるけどね。

2018/06/14(木) 21:55:19.69

自動制御システムを機械学習という人たちもいるからな

2018/06/14(木) 22:08:55.21

>>485
マセマみたいな簡単な参考書で、線形代数、微分積分、統計学の知識を大学一年生レベルまで習得
これなら分かる最適化数学、言語処理のための機械学習入門、はじパタ本を読む
プログラミングは、書籍だけで勉強する場合、pythonの参考書を最低五冊
また、英語を勉強して、論文を読めるようにするように

DB、クラウドの知識もほしいし、前処理についても独学しておいた方が採用されやすいだろう
カグルにもチャレンジした方がいいかなあ
あと絶対むずかしい参考書に手を出すな！絶対だぞ！

2018/06/15(金) 06:16:57.25

日本語の情報乏しいのって出版不況と関係あるよな

2018/06/15(金) 08:54:59.38

むかしから日本は共有知を軽視してきただろ
今更なに言ってんだ

2018/06/15(金) 10:14:10.38

Ｃ言語入門ならいっぱいあるだろうｗ

2018/06/15(金) 10:19:15.58

>>492
ご丁寧にありがとうございます
自宅学習がまるでできないのでまずは基本情報を取って自信をつけてみます

2018/06/15(金) 10:25:03.32

「〇〇入門」は山ほどあるのにその先を教えるものになると日本語の情報は激減するよな

2018/06/15(金) 14:10:20.02

どうせ、価値ある一次情報は国外からしか出ないから、まず、英語で良い。

新井女史が人工知能の最高峰な国、Japan。
https://booklive.jp/review/list/title_id/493315/vol_no/001

2018/06/15(金) 14:36:03.53

新井女史ｗ

2018/06/15(金) 16:50:32.46

ステマ乙

2018/06/15(金) 20:40:24.15

アナリストの履歴書、シティが高く評価する言語は「Python」
https://www.bloomberg.co.jp/news/articles/2018-06-14/PABKZ66K50XU01

今はやりの言語

2018/06/15(金) 21:30:14.68

>>469
同意。そこらへんのことを本当に知らない人多すぎ。

2018/06/15(金) 21:46:10.67

で、そういう人は具体的に誰？

2018/06/15(金) 23:05:51.25

まあぶっちゃけ、自分が思い浮かぶ程度の手法は、エクセル先生でできちゃうし、実務上はそれをわざわざRやらPythonやらでやるインセンティブもないわけで。
ロジスティック回帰とかそこら辺になりゃ意味あるがあまり機会がない。やらんでなんとなく過ごしてる自分が悪いだけ疑惑はあるけどw

https://twitter.com/ikasanma/status/1007588876251160582

2018/06/16(土) 01:05:12.04

流石にEXCELとPythonは使い道が違いすぎる

2018/06/16(土) 06:02:56.78

>>501
背景の緑のマトリックスみたいな画像がpython関係なくてダサすぎる

2018/06/17(日) 12:29:43.65

Excelは昔から統計分析でも使われてきたし変ではない。

今更と言われるくらいにパイソンも昔から存在したが、注目されるほどではなかった。
パイソンがデータ処理に向いているというのは最近流布されるステマの一種だろう。
インタプリタだからパイソンはデータセットが肥大化すると遅くなるよ。

シティー銀行がデータ分析や人工知能しようが、世界は常に変わるからエキスパート
システムのようなアプリケーションは成功しなかったし、株価予測は原理的にランダムであり
予測不可能なのでAIなどやるだけ無駄。

2018/06/17(日) 12:38:37.62

データ量肥大化でpython処理が重くなるというならEXCELの場合重くなるどころか開くことすらできなくなるけどね
むしろEXCELとの比較だけで言えばpython使うなら元データを分割して読み込みなど工夫すれば原理的には元データ量に関する限界はなく処理時間もデータ量に比例するだけ

2018/06/17(日) 14:39:33.98

Excel推しの人ってみんな言ってることがどこかズレてる印象

2018/06/17(日) 14:50:00.70

無理矢理EXCELでやろうとする奴ほんとアホ

2018/06/17(日) 16:55:01.65

というか、EXCELしか使えないからそれしか選択肢ないんだろう

2018/06/17(日) 18:22:10.11

まず、エキスパートシステムは部分的には成功しているぞ
成果が世の目に触れにくいだけだ

そして、パイソンの株式予測は、データが増えれば増えるほど成功する
あんなの最適化数学の延長で十分

◆QZaw55cn4c (ﾜｯﾁｮｲ 2260-m0US) · 2018/06/17(日) 22:16:10.89

>>512
＞株式予測は、データが増えれば増えるほど成功する
株価が上昇するか、それともアンダーウェートか、それだけでも判定できるのなら大いに役に立ちます！
勝率はどれくらいですか？

2018/06/17(日) 22:59:51.87

株価予測は簡単じゃねえわ
当たり前の話なんだが過去は幾らでも説明できるんだけど
未来は「まだおきていない」ので分からんのだ

2018/06/18(月) 02:51:16.57

株価は、あらゆる情報を用いたとしても、日経平均などの平均値を超えられないという、予想が信じられてるんだろ。
日経平均を上回る圧倒的パフォーマンスをだしたとしても、一時的であってたとえば100年、1000年とか長期で測れば平均値に落ち着くといった。

2018/06/18(月) 03:03:16.56

株価予測が可能かどうかに関する理論・仮説はこれだ。

効率的市場仮説 - Wikipedia

金融経済学における効率的市場仮説とは、市場は常に完全に情報的に効率的であるとする仮説。
効率的市場仮説に従えば、株式取引は株式を常に公正な価格で取り引きしていて、投資家が株式を安く買うことも高く売ることもできないということになる。
すると、銘柄の選定や市場のタイミングから市場の平均以上の実績を得るのは不可能である。

チリジ・マルワラは、市場に人工知能を搭載したコンピューターのトレーダーが増えるほど市場は効率的になっていくため、
人工知能が効率的経済仮説の理論の適用可能性に影響を与えるのではないかと推論した。

ウォーレン・バフェットは効率的経済仮説に反論していて、特に注目に値する1984年のプレゼン「The Supervisers of Graham-and-Doddsville」において、
世界最高レベルの運用投資会社で働く株式投資家の圧倒的多数は、投資家の成功は運で決まるという効率的経済仮説の主張に反論していると述べた。

マルキールは、プロのポートフォリオマネージャーの3分の2が（1996年までの）30年間にわたってS&P 500指数を越える実績を出せていない
（しかも、ある年に実績が高い人とその次の年に実績が高い人の間の相関は殆どない）ことを示している。

2018/06/18(月) 03:14:04.36

自分の考えは、株価予測は不可能という効率的市場仮説はほぼ正しいとおもっていて。
ビル・ゲイツとか、孫正義など個人・組織とかの勝手な思い、欲求で大金が動いたとき、
市場の効率性が崩れ、その瞬間だけはチャンスありという理解。
個人の思いは普通は予測できない。本人自身なら分かってるが・・・
しかしそうすると金持ちは大金動かせて、その正確な予測も自身はできてるので常に稼げることになるがどうか。