【統計分析】機械学習・データマイニング18
レス数が900を超えています。1000を超えると表示できなくなるよ。
機械学習とデータマイニングについて何でもいいので語れ
人工知能考察は未来技術板の技術的特異点スレで語れ
※ワッチョイ
■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76
■前スレ
【統計分析】機械学習・データマイニング17
http://mevius.5ch.net/test/read.cgi/tech/1502032926/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured 一番手軽なのはどこにも属さず自分で研究して、自分で論文を書いて
ホームページを作ってそこで発表することだなw アホの思い込み、どこでもできるだろ
>どうしても情報系の研究がしたいからJAIST入学を考えてる
いいネタだった 大卒の肩書がなくとも論文を書けるぐらい超有能ならアメリカの大学院へ行けばいいじゃない >>841
大学へは行けないんじゃなかったのかよwww >>842
学会発表しないと認められないと思うんだ 知り合いがいるから今度変なやつが受験するとこっそり伝えておこう これ以上何回エポック回しても、中退じゃ無理だって学習してくれないみたいだし、
多分モデル設計が悪いのか、学習率上げ過ぎて重みの大半が死んでるんだろうな... 移動平均などから期間中の標準偏差を出そうとした時、期間中の値は全て明らかなので分散をnで割るべきか、n-1か、どちらが良いでしょうか? データが馬鹿でかければ影響はほとんどないといえるが
質問されている方の、
>期間中の値は全て明らかなので
この質問をみた限り、データマイニングや機械学習をやる前に、
統計解析の基本を学ばないといけない。 >>856
移動平均なので対象期間のデータ(母集団)は全て把握してる認識ですが、違いますか? AI専門家が仲間入り、7桁の高額給与を約束する職種
https://www.bloomberg.co.jp/news/articles/2018-02-14/P44LJ96JIJV701
博士号を取得したばかりでも30万ドルを上回る収入を得ることが可能
だそうです
AIバブル真っ盛り、でもこれから50年くらいは続くんだよね 昔USAの三大AI学科で博士号をとるとすぐに高級取りといわれていた >>857
対象期間の全パターンを調べないとそうならないでしょうね。
パターンは無限なので、調べられないけど。 >>862
普遍分散を適用するのが一般的ということですね? AlphaZeroのソースコードはわずかホワイトボード一枚に収まる : 情熱のミーム 清水亮
ttp://japanese.engadget.com/2018/02/12/alphazero/ むかしむかしAPLという言語が有った
極端に短いコードが書ける、特殊な記号をつかうので
キーボードも見知らぬ記号が入ったものだった。
現在の言語より相当短くかけるが
メンテナンス性に問題があった。
それを思い出しちゃったよ。 >>868
昔情報処理試験にPL1という言語があったな。
でもなんでCOBOLってなんでまだあるの? >>869
銀行とかのシステムで使ってるからその保守要員には必要な知識
ただしそのうちシステムもCOBOLなんて使わなくなるだろうから新卒で銀行の保守にあてがわれてCOBOLしかできないような人は近々捨てられる運命 >>869
PL1は昔仕事で使ったことあるわ
組み込みだった =言語の歴史=
『PL/I』・『ケン・トンプソン』・『デニス・リッチー』
と
『C言語、』『UNIX』
の意外な関係。
なんてのがあったね。
PL/Iが無かったらUNIXは生まれなかったろうという。 >>868
代入記号が特殊キーボード使って←で
A←A+1
だったのはそろそろ見習って欲しい 駿「他人の業績を自分がやったように語る、極めてなにかDM社に対する侮辱を感じます」 >>871
次はAI繋がりでおそらくpythonだろうな。 PL/MでなくPL/1を組み込みに使うなんてリッチな
環境ですね 良し悪し分類と種類の分類でどうニューラルネットワークの設計変わるんや
例えば料理だったら 美味そうか点数付けるのと料理の種類判別するのの違い >>879
> PL/MでなくPL/1を組み込みに使うなんてリッチな
MITのProject MACの内容、特にOSのMulticsについて調べてごらん
このOSは当時の最新最強の言語であったPL/Iで書かれたんだよ
そしてBell Labs.もこのプロジェクトに関わっていたが後に撤退し
その失敗の反省を踏まえてBell Labs.の連中が作ったOSがUNIX
つまり何でもできるようにしようとして規模がどんどん膨れ上がったMULTIcsに対するアンチテーゼとして
狙いを絞って軽量小型で反応も速いUNIxが生み出されたわけだ
ただしUNIXの記述言語のCについてはPL/Iから特に影響は受けた点はないと思う
C言語がどういった言語たちから影響を受けてどんな流れで誕生したのかも面白い話題だが
それはまたいつか気が向いたら書くかも知れない お客さん >>882 はどうも、Multicsを組み込みに使っている
みたいなんですけど。頭おかしいですよね。
そもそもライセンス違反ですよね >>884
> お客さん >>882 はどうも、Multicsを組み込みに使っている
882が>>879へのレスでその879が「組み込みに使うなんて」と書いてるからと言って延髄反射で上のように揶揄レスをするのは
君自身の頭の悪さ、読解力の欠如をわざわざ自分から曝け出しているだけの行為だよ
879がなぜ突然にPL/Iと言い出したかを考えれば、879が狂人でもない限り、その原因は>>874の
> 『PL/I』・『ケン・トンプソン』・『デニス・リッチー』
> と
> 『C言語、』『UNIX』
> の意外な関係。
>
> なんてのがあったね。
> PL/Iが無かったらUNIXは生まれなかったろうという。
以外には見当たらない。だから私の882は、その874で触れられていて879が反応したと推測されるPL/IとUNIXとの因縁を述べたのですよ。
879が「PL/Iを組み込みに使うなんて」と組み込みという言葉を急に持ち出したのは874で組み込みで広く使用されているC言語が出ているからだと推察できる。
なお、一言断っておくと、言語の名前として879のように“PL/1”と書く人も少なくないがこれは間違い、正しくは1のローマ数字を用いた“PL/I”だ。
884はもう少し議論の文脈をきちんと押さえてから反応することだね。でないと己の読解力の不足を示すだけのレスになってしまうよ。 >>882
MITは今Juliaだ。そのうちpythonにとって変わる。 Juliaはこの10年近くAV界を席巻したな
将来性と言っても・・・・ Iとか1とかlがごっちゃになってるのは
昔のタイプライター式キーボードの名残で云々 >>888
どっちの用途でも、性能アップにはシリコンデバイスの増設が必要だねw qiitaは真面目な記事とゴミ記事の落差がありすぎる 変数が・・・・・まぁ気にしない人は気にならないのだろうけど。 yjcaptionsを形態素解析でパースしたら語彙数が10000以上になってしまった
seq2seqするなら1hotと分散表現と1文字ごとと語彙減らすのどれがいいかな おまいら、学習ってどれくらい時間使ってる?
ワイ、遺伝的アルゴリズムで8時間くらいPCフルで動かしてる Juliaって使いにくいんだよな
matlabのコマンドウインドウをそのままpython対応にしてほしいわ tensorflowからkerasに移行したけどもっと早くに変えとくべきだったわ
kerasの楽さになれたら戻れんな chainerはtrainerに投げるまでのパッケージが何段階もあって面倒
kerasはモデル作ってコンパイルしてフィットするだけだから分かりやすい >>915
TFは別格にしても、pytorchもかなり流行ってきてるな >>914
そんなことはみんな知ってるけど、信者が荒れるから避けてきてるんだよ
>>915 >>916
FB が頑張ってるからな kerasは抽象化進んでるからこまい部分いじろうとしたらtf モデルだけkerasで作って、訓練はtfに投げるっていう手もある >>917
ワッチョイにしてから問題ないよ〜
>>918 >>919
そういう使い方いいな あるモデルの予測性能に低下が見られた場合
トレーニングに使ったデータが既に手元にない時は
何をもとにチューニングをすれば良いのでしょうか >>921
トレーニングに使ったデータを用いた予測と
直近のデータに差が生じた。
=>トレーニングに使ったデータでは差が出る
=>直近のデータでチューニングする
じゃないの? 学習モデル無いのにどこをどうチューニングするんだろう オンライン学習でいいんじゃないの
トレーニング用のデータはない、新しいデータもない場合は無理な話だけどバリデーション用のデータがあるから性能評価できてるんだろうし サポートベクター回帰について質問があるんだけど、
ここでいいの? >>927
新しいデータがないとすると
チューニングが必要かどうかも
分からないと思うんだけど オンライン学習を使わない場合は
モデルを継続的にメンテナンスするのに
モデル作成時とそれ以降のトレーニングデータを
延々と保持し続ける必要があるということ?
実務ではどうやっているのだろう 時系列的に変化してゆくものなら
初期モデルを保持する必要はないでしょう
初期状況がスタートになるデータと、
そうでないデータがあるなら
両者保持してそれぞれに適用する。
後者は動的に変化させてもいいし初期を引きずる
必要もない。
ま、置かれた状況に寄りということになるでしょうね。 ロバスト性の維持を必要とするかしないか
今のAIはその辺りの思考は適当かもしれない 例えば手書き文字認識で最初に1万件のトレーニングデータで判別モデルを構築
その後新たに2万件のデータが入手できてそれをモデルに学習させるという場合
合わせて3万件のデータで適切なパラメータを探してテストしてモデルを構築することになるのかな
これはモデルを新しく構築するのと変わらないように思えるけど
つまり「学習≒モデルの新規作成」ということなのかな
これを続けるといずれはリソース不足になるけど
それを防ぐために最新の3万件を使ってモデルを構築するしくみにすると
切り捨てた古いデータから得られた知見はモデルに反映されないということになるのかな サポートベクター回帰のことで質問。
目的関数や判別関数のなかにΣ(a-a*)っていう項がある。
a*は何を指していて、どうやって計算すればいいのだろうか。
ひょっとして、回帰曲線より上にあるデータに関してはaを計算し、
下にあるのはa*を計算するっていう風にするのかな?
もしそうだとすると、学習中は回帰曲線が変化していくのに合わせて、
aかa*かを変えていくってことなのかな?
実際の数式は、例えば↓のP.11
ttp://datachemeng.com/wp-content/uploads/supportvectorregression.pdf >>935
オンライン学習だね
ディープ系だとあとから追加された教師データの影響が限定的な気がする
あとから追加された教師データで別のモデル作って、旧モデルとのアンサンブルを蒸留したほうが実用的には良い気がする >>935
単純に最新の2万件だけとかにすると
同じデータばっかり連続して入ってくると
馬鹿になってしまう いつのまにかkerasがCNTKに対応してたんだけど、やっぱりwindowsだとCNTKのほうが相性よかったりするんだろうか >>940
CNTK の Keras 対応はまだベータのままだと思うよ レス数が900を超えています。1000を超えると表示できなくなるよ。