【統計分析】機械学習・データマイニング18

2017/10/12(木) 20:21:31.89

機械学習とデータマイニングについて何でもいいので語れ
人工知能考察は未来技術板の技術的特異点スレで語れ

※ワッチョイ

■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76

■前スレ
【統計分析】機械学習・データマイニング17
http://mevius.5ch.net/test/read.cgi/tech/1502032926/

VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured

2018/02/14(水) 12:51:26.27

一番手軽なのはどこにも属さず自分で研究して、自分で論文を書いて
ホームページを作ってそこで発表することだなｗ

2018/02/14(水) 12:57:07.29

アホの思い込み、どこでもできるだろ
>どうしても情報系の研究がしたいからJAIST入学を考えてる

いいネタだった

2018/02/14(水) 13:00:19.44

大卒の肩書がなくとも論文を書けるぐらい超有能ならアメリカの大学院へ行けばいいじゃない

2018/02/14(水) 13:04:21.33

>>842
それな。

2018/02/14(水) 13:08:09.80

>>841
大学へは行けないんじゃなかったのかよｗww

2018/02/14(水) 13:49:33.73

>>846
いや社会人大学院だから講義は土日

2018/02/14(水) 14:20:09.53

次のネタどうぞ

2018/02/14(水) 16:00:40.72

>>842
学会発表しないと認められないと思うんだ

2018/02/14(水) 16:35:20.48

知り合いがいるから今度変なやつが受験するとこっそり伝えておこう

2018/02/14(水) 16:41:10.27

これ以上何回エポック回しても、中退じゃ無理だって学習してくれないみたいだし、
多分モデル設計が悪いのか、学習率上げ過ぎて重みの大半が死んでるんだろうな．．．

2018/02/14(水) 17:04:35.53

馬鹿の壁はAIにも超えられない（笑）

2018/02/14(水) 17:19:44.01

既存技術も碌に分かってなさそう

2018/02/14(水) 21:08:16.84

移動平均などから期間中の標準偏差を出そうとした時、期間中の値は全て明らかなので分散をnで割るべきか、n-1か、どちらが良いでしょうか？

2018/02/14(水) 22:24:05.68

不偏性とかどっちでもいいんじゃねえの

2018/02/14(水) 22:43:46.96

データが馬鹿でかければ影響はほとんどないといえるが
質問されている方の、
　＞期間中の値は全て明らかなので
この質問をみた限り、データマイニングや機械学習をやる前に、
統計解析の基本を学ばないといけない。

2018/02/14(水) 22:50:25.77

>>856
移動平均なので対象期間のデータ（母集団）は全て把握してる認識ですが、違いますか？

2018/02/15(木) 07:04:26.22

とりあえずどこかの学会員になることだね

2018/02/15(木) 07:33:59.60

>>858
基礎からやり直してこい

2018/02/15(木) 13:56:34.31

ＡＩ専門家が仲間入り、７桁の高額給与を約束する職種
https://www.bloomberg.co.jp/news/articles/2018-02-14/P44LJ96JIJV701

博士号を取得したばかりでも30万ドルを上回る収入を得ることが可能
だそうです
AIバブル真っ盛り、でもこれから５０年くらいは続くんだよね

2018/02/15(木) 14:20:41.70

昔USAの三大AI学科で博士号をとるとすぐに高級取りといわれていた

2018/02/16(金) 11:04:30.52

>>857
対象期間の全パターンを調べないとそうならないでしょうね。
パターンは無限なので、調べられないけど。

2018/02/16(金) 12:27:01.63

>>862
普遍分散を適用するのが一般的ということですね？

2018/02/16(金) 14:18:52.29

ですね

2018/02/17(土) 09:27:52.87

AlphaZeroのソースコードはわずかホワイトボード一枚に収まる : 情熱のミーム　清水亮
ttp://japanese.engadget.com/2018/02/12/alphazero/

2018/02/17(土) 10:15:14.52

goto main

わずか一行！

2018/02/17(土) 17:05:21.61

何枚紙貼ってんだよ

2018/02/18(日) 01:25:23.09

むかしむかしAPLという言語が有った
極端に短いコードが書ける、特殊な記号をつかうので
キーボードも見知らぬ記号が入ったものだった。
現在の言語より相当短くかけるが
メンテナンス性に問題があった。

それを思い出しちゃったよ。

2018/02/18(日) 09:49:13.89

>>868
昔情報処理試験にPL1という言語があったな。
でもなんでCOBOLってなんでまだあるの？

2018/02/18(日) 10:12:36.85

プログラム作り変えるの金かかるからでしょう

2018/02/18(日) 10:15:55.94

>>869
銀行とかのシステムで使ってるからその保守要員には必要な知識
ただしそのうちシステムもCOBOLなんて使わなくなるだろうから新卒で銀行の保守にあてがわれてCOBOLしかできないような人は近々捨てられる運命

2018/02/18(日) 10:52:53.56

といわれてはや数十年

2018/02/18(日) 11:03:27.95

>>869
PL1は昔仕事で使ったことあるわ
組み込みだった

2018/02/18(日) 12:26:31.39

＝言語の歴史＝

『PL/I』・『ケン・トンプソン』・『デニス・リッチー』
と
『C言語、』『UNIX』
の意外な関係。

なんてのがあったね。
PL/Iが無かったらUNIXは生まれなかったろうという。

2018/02/18(日) 13:41:22.04

>>868
代入記号が特殊キーボード使って←で

A←A+1

だったのはそろそろ見習って欲しい

2018/02/18(日) 14:18:24.96

キーボードに
ドミノみたいな記号があったよね

2018/02/18(日) 22:02:38.07

駿「他人の業績を自分がやったように語る、極めてなにかDM社に対する侮辱を感じます」

2018/02/19(月) 07:21:28.50

>>871
次はAI繋がりでおそらくpythonだろうな。

2018/02/19(月) 12:50:11.59

PL/MでなくPL/1を組み込みに使うなんてリッチな
環境ですね

2018/02/21(水) 08:50:35.80

良し悪し分類と種類の分類でどうニューラルネットワークの設計変わるんや

例えば料理だったら美味そうか点数付けるのと料理の種類判別するのの違い

2018/02/21(水) 10:06:11.32

そうだね

2018/02/21(水) 17:51:52.84

>>879
> PL/MでなくPL/1を組み込みに使うなんてリッチな

MITのProject MACの内容、特にOSのMulticsについて調べてごらん

このOSは当時の最新最強の言語であったPL/Iで書かれたんだよ
そしてBell Labs.もこのプロジェクトに関わっていたが後に撤退し
その失敗の反省を踏まえてBell Labs.の連中が作ったOSがUNIX
つまり何でもできるようにしようとして規模がどんどん膨れ上がったMULTIcsに対するアンチテーゼとして
狙いを絞って軽量小型で反応も速いUNIxが生み出されたわけだ

ただしUNIXの記述言語のCについてはPL/Iから特に影響は受けた点はないと思う

C言語がどういった言語たちから影響を受けてどんな流れで誕生したのかも面白い話題だが
それはまたいつか気が向いたら書くかも知れない

2018/02/21(水) 18:31:03.07

書くなら適切な場所でな

2018/02/21(水) 19:30:14.11

お客さん >>882 はどうも、Multicsを組み込みに使っている
みたいなんですけど。頭おかしいですよね。
そもそもライセンス違反ですよね

2018/02/21(水) 20:15:47.77

>>884
> お客さん >>882 はどうも、Multicsを組み込みに使っている

882が>>879へのレスでその879が「組み込みに使うなんて」と書いてるからと言って延髄反射で上のように揶揄レスをするのは
君自身の頭の悪さ、読解力の欠如をわざわざ自分から曝け出しているだけの行為だよ

879がなぜ突然にPL/Iと言い出したかを考えれば、879が狂人でもない限り、その原因は>>874の

> 『PL/I』・『ケン・トンプソン』・『デニス・リッチー』
> と
> 『C言語、』『UNIX』
> の意外な関係。
>
> なんてのがあったね。
> PL/Iが無かったらUNIXは生まれなかったろうという。

以外には見当たらない。だから私の882は、その874で触れられていて879が反応したと推測されるPL/IとUNIXとの因縁を述べたのですよ。
879が「PL/Iを組み込みに使うなんて」と組み込みという言葉を急に持ち出したのは874で組み込みで広く使用されているC言語が出ているからだと推察できる。

なお、一言断っておくと、言語の名前として879のように“PL/1”と書く人も少なくないがこれは間違い、正しくは１のローマ数字を用いた“PL/I”だ。

884はもう少し議論の文脈をきちんと押さえてから反応することだね。でないと己の読解力の不足を示すだけのレスになってしまうよ。

2018/02/22(木) 07:59:06.82

>>882
MITは今Juliaだ。そのうちpythonにとって変わる。

2018/02/23(金) 00:18:04.30

んなわけない

2018/02/23(金) 12:22:07.69

Juliaはこの10年近くAV界を席巻したな
将来性と言っても・・・・

2018/02/23(金) 16:57:13.59

Iとか1とかlがごっちゃになってるのは
昔のタイプライター式キーボードの名残で云々

2018/02/23(金) 20:21:30.43

>>889
あ～～～
なんで覚えてんのや

2018/02/23(金) 22:23:49.95

終わった

2018/02/23(金) 22:39:43.05

>>888
どっちの用途でも、性能アップにはシリコンデバイスの増設が必要だねw

2018/02/24(土) 03:35:00.34

qiitaは真面目な記事とゴミ記事の落差がありすぎる

2018/02/24(土) 21:22:56.45

pythonって欠点あるの？

2018/02/25(日) 00:08:37.26

変数が・・・・・まぁ気にしない人は気にならないのだろうけど。

2018/02/25(日) 00:13:50.17

変数宣言はほしい、typo は排除しきれない

2018/02/25(日) 00:42:33.02

>>894
スピード

2018/02/25(日) 04:02:17.51

コードの隠蔽が難しい

2018/02/25(日) 09:10:17.64

yjcaptionsを形態素解析でパースしたら語彙数が10000以上になってしまった
seq2seqするなら1hotと分散表現と1文字ごとと語彙減らすのどれがいいかな

2018/02/25(日) 17:43:16.50

人工知能が全く未経験でも学べると謳うこれはどうなのよ？
https://tech-camp.in/article-lp02/index.html?gclid=EAIaIQobChMIrf_Ps9XA2QIVVXG8Ch2hrAbZEAEYASAAEgKFqPD_BwE

2018/02/25(日) 18:22:37.79

>>900
ウイルス

2018/02/25(日) 21:21:17.07

>>901
まともに開けるサイトだよ。

2018/02/25(日) 21:38:23.20

パコソンが物故割れた

2018/02/25(日) 21:40:45.86

アフォンが爆発した

2018/02/25(日) 21:41:28.00

御冥福をお祈りいたします

2018/02/26(月) 04:30:36.40

おまいら、学習ってどれくらい時間使ってる？
ワイ、遺伝的アルゴリズムで8時間くらいPCフルで動かしてる

2018/02/26(月) 07:17:19.11

>>906
何を学習させてるの？

2018/02/26(月) 07:32:54.83

>>897
Juliaにしろ。

2018/02/26(月) 07:37:16.76

Juliaって使いにくいんだよな
matlabのコマンドウインドウをそのままpython対応にしてほしいわ

2018/02/26(月) 16:52:46.96

機械学習の基礎って1週間で学べる？

2018/02/26(月) 16:58:29.55

楽勝

2018/02/26(月) 20:08:09.42

tensorflowからkerasに移行したけどもっと早くに変えとくべきだったわ
kerasの楽さになれたら戻れんな

2018/02/26(月) 20:44:10.33

ケラケラ

2018/02/27(火) 00:11:37.36

chainerはtrainerに投げるまでのパッケージが何段階もあって面倒
kerasはモデル作ってコンパイルしてフィットするだけだから分かりやすい

2018/02/27(火) 00:47:26.28

pyTorch…

2018/02/27(火) 01:32:16.56

>>915
TFは別格にしても、pytorchもかなり流行ってきてるな

2018/02/27(火) 01:46:37.32

>>914
そんなことはみんな知ってるけど、信者が荒れるから避けてきてるんだよ

>>915 >>916
FB が頑張ってるからな

2018/02/27(火) 08:21:03.94

kerasは抽象化進んでるからこまい部分いじろうとしたらtf

2018/02/27(火) 15:55:02.38

モデルだけkerasで作って、訓練はtfに投げるっていう手もある

2018/02/28(水) 00:19:42.85

>>917
ﾜｯﾁｮｲにしてから問題ないよ～

>>918 >>919
そういう使い方いいな

2018/03/01(木) 10:34:42.63

あるモデルの予測性能に低下が見られた場合
トレーニングに使ったデータが既に手元にない時は
何をもとにチューニングをすれば良いのでしょうか

2018/03/01(木) 10:44:25.07

想像力

2018/03/01(木) 10:47:59.02

解決しました。ありがとうございます。

2018/03/01(木) 13:41:44.13

>>921
トレーニングに使ったデータを用いた予測と
直近のデータに差が生じた。
＝＞トレーニングに使ったデータでは差が出る
＝＞直近のデータでチューニングする
じゃないの？

**デフォルトの名無しさん** (JP 0Hbf-9qkV) · 2018/03/01(木) 16:42:02.06

学習モデル無いのにどこをどうチューニングするんだろう

2018/03/01(木) 17:32:30.43

エアー

2018/03/01(木) 18:24:10.61

オンライン学習でいいんじゃないの
トレーニング用のデータはない、新しいデータもない場合は無理な話だけどバリデーション用のデータがあるから性能評価できてるんだろうし

2018/03/01(木) 19:25:38.83

サポートベクター回帰について質問があるんだけど、
ここでいいの？

2018/03/01(木) 21:46:38.46

>>927
新しいデータがないとすると
チューニングが必要かどうかも
分からないと思うんだけど

2018/03/01(木) 22:57:30.16

オンライン学習を使わない場合は
モデルを継続的にメンテナンスするのに
モデル作成時とそれ以降のトレーニングデータを
延々と保持し続ける必要があるということ？
実務ではどうやっているのだろう

2018/03/02(金) 00:05:23.29

時系列的に変化してゆくものなら
初期モデルを保持する必要はないでしょう
初期状況がスタートになるデータと、
そうでないデータがあるなら
両者保持してそれぞれに適用する。
後者は動的に変化させてもいいし初期を引きずる
必要もない。

ま、置かれた状況に寄りということになるでしょうね。

2018/03/02(金) 00:11:29.37

ロバスト性の維持を必要とするかしないか
今のAIはその辺りの思考は適当かもしれない

2018/03/02(金) 01:49:20.06

CNTKってどうなん？

2018/03/02(金) 02:06:55.75

意外に悪くないよ

2018/03/02(金) 08:10:24.81

例えば手書き文字認識で最初に1万件のトレーニングデータで判別モデルを構築
その後新たに2万件のデータが入手できてそれをモデルに学習させるという場合
合わせて3万件のデータで適切なパラメータを探してテストしてモデルを構築することになるのかな

これはモデルを新しく構築するのと変わらないように思えるけど
つまり「学習≒モデルの新規作成」ということなのかな

これを続けるといずれはリソース不足になるけど
それを防ぐために最新の3万件を使ってモデルを構築するしくみにすると
切り捨てた古いデータから得られた知見はモデルに反映されないということになるのかな

2018/03/02(金) 09:04:33.85

サポートベクター回帰のことで質問。
目的関数や判別関数のなかにΣ(a-a*)っていう項がある。
a*は何を指していて、どうやって計算すればいいのだろうか。
ひょっとして、回帰曲線より上にあるデータに関してはaを計算し、
下にあるのはa*を計算するっていう風にするのかな？
もしそうだとすると、学習中は回帰曲線が変化していくのに合わせて、
aかa*かを変えていくってことなのかな？

実際の数式は、例えば↓のP.11
ttp://datachemeng.com/wp-content/uploads/supportvectorregression.pdf

2018/03/02(金) 09:11:06.56

>>935
オンライン学習だね
ディープ系だとあとから追加された教師データの影響が限定的な気がする
あとから追加された教師データで別のモデル作って、旧モデルとのアンサンブルを蒸留したほうが実用的には良い気がする

2018/03/02(金) 09:17:42.49

eラーニング

2018/03/02(金) 13:24:22.11

>>935
単純に最新の２万件だけとかにすると
同じデータばっかり連続して入ってくると
馬鹿になってしまう

2018/03/02(金) 13:47:26.85

いつのまにかkerasがCNTKに対応してたんだけど、やっぱりwindowsだとCNTKのほうが相性よかったりするんだろうか

2018/03/02(金) 14:40:53.80

>>940
CNTK の Keras 対応はまだベータのままだと思うよ