【統計分析】機械学習・データマイニング30
レス数が1000を超えています。これ以上書き込みはできません。
!extend:on:vvvvvv:1000:512
!extend:on:vvvvvv:1000:512
↑すれたてる毎に1つずつ減るので、減ってたら3回に増やしてたてること。
機械学習とデータマイニングについて語れ若人
*機械学習に意識・知能は存在しません。
人の意識に触れたい方はスレ違いです。
■前スレ
【統計分析】機械学習・データマイニング29
https://mevius.5ch.net/test/read.cgi/tech/1597882603/
-EOF-
VIPQ2_EXTDAT: default:vvvvvv:1000:512:: EXT was configured 量子コンピュータが完成したら、最初に消える職業がデータ分析。 量子コンピュータが完成したらssh禁止で物理的幽閉される悪夢の未来しかない この前RTX2080を経費で落として1080Tiから変えてみたんだけど
あんまり早くなってる気がしないのは何故だろう
もしかしてあんま性能変わってない?これなら3080買っておけばよかったわ >>10
Pytorch使ってるから10.2を使ってる
30万枚くらいの100×100の画像をWRN50バッチサイズ64で学習させてるんだけど以前とあんま変わらず6時間位掛かる
使用率は100%張り付きしてるから多分大丈夫だとは思うんだけど 1080tiの方がデータが巨大ならよい場合があるかも? 畳み込みは画像処理プロセッサ(つまりGPU)と相性がいいのに対し、Transformerモデルではそうでもない
らしいぞ >>3
イジングモデル化がボトルネック
課題の落とし込み過程で詰まるのはAIといっしょ https://www.newstatesman.com/2021/01/how-palantir-quietly-extending-its-reach-through-british-state
Palantir、英国で8300万ポンドを超える政府およびNHSとの取引を確保
EU離脱後、国境付近の感染者、物流分析にパランティアのソフトを使用
また全国の病院の需要を予測し、
それに応じてPPEや人工呼吸器などのリソースを配布できるようにするために必要なデータインフラストラクチャを提供
フランス政府とも、テロ対策で提携 Palantirは昨年、
日本の富士通やヤマトHD、損保HDとも戦略的提携を行った
日本政府とも、政策判断AIの開発で協議中 みなさん、パソコンは自作PCを使っているんですか?
GPUは最低どれを使えばOKですか? >>19
私はお古の PhenomIIx6 + SSD 換装でなんとか、という最底辺ですが、そのかわり GPU は発売後すぐに 1080ti → 発売後すぐに 2080ti で、今は 3090 簡易水冷を狙ってひたすら貯蓄に励んでいます 慶応大学医学部のデータサイエンスが専門の教授をテレビで最近よく見かけます.
非常に胡散臭い人物に見えるのですが,まともな学者なのでしょうか? 若白髪なのか染めているのか知りませんが,白髪の人です. >>21
チャイナ語は勉強していますがチャイナ製はさすがに買いませんね‥‥ 仮にこの分野で本当に優秀な人がいたのなら
日本に住んでないだろうな >>22
医学系のデータサイエンティストってシステム系よりレベルが高い人が多い印象だけど
この人はふわっとしたテーマのリサーチが多いね(答えのない分析) 学習回数ごとにモデルを作りたい時、毎回1から学習しないとダメですか?例えば20回学習したモデルを流用してさらに10回学習するなどはできますか? google colabでyes noみたいな選択肢が出てきた場合、どうしたらいいんですか・
yesと入力してもどうにもならない
cmdとは違い !python3 TecoGAN/runGan.py 0としてサンプルデータをダウンロードすると、上書きするかどうか効かれます
cmdでy/nと聞かれるようなやつです
しかしyesと入力してもだめなので フレームワークも充実してきてある程度の素養が有れば深層学習できる時代になってきたんで、
専門家も大変だね
企業側も数年前と比べるとAIに対しても現実的な評価になってきたし >>41
nと入力してもだめなんですよね
ジュピターノートブックですが >>45
そうでもないでしょう…
AI は「教師データ」という過去情報を必要とするのが大多数の普通ではないでしょうか?
もしそうならば、教師データがない知的活動に対しては対応できないのでは?
なにもないところから a^n + b^n = c^n を AI は証明できるのか疑問です それがどんどん進化してるんだよね
Google傘下のDeepMindがゲームのルールを教えられなくても勝ち方を勝手に学習していくAI「MuZero」を発表
https://gigazine.net/news/20201224-deepmind-muzero/ >>47
強化学習を適用できる応用ばかりとは限りますまい‥‥ >>48
ちょっと前まで無人のタクシーなんて無理だなんて言ってたが
もうアメリカでは完全自律の無人タクシーが走ってお客を乗せている
今年は配達車も無人化していくらしい
店も無人になり、、どんどん人が要らなくなってきますよ >>49
>もうアメリカでは完全自律の無人タクシーが走ってお客を乗せている
なんと!
それを紹介している記事の URL を教えてください‥ 「Waymo」の自動運転車に60回以上乗って分かったその安全性とは?
https://gigazine.net/news/20201208-waymo-driverless-tech/
実際に乗客が走ってる映像も撮ってるからよく見ると言い >>45
そのうち働かなくていい時代がやってくる(鼻糞ホジホジ) AI に仕事を奪われたからどうだって言うんだよまだ時間はあるんだからそれまでに別の仕事を探すしかないだろう モザイク消したいのですが、最初に何を勉強したらいいのでしょうか?
tecoganのチュートは非常に少ないです
ganがいいのでしょうか?
pytorch gan colabでやってますです(´;ω;`) 自分の脳みそを使えば、
AIなんて使わなくても、簡単にモザイク除去できる >>55
機械学習に頼らなくても
1フレームごとにその部分に似た角度の別画像を探して来て
その部分的を切り取り貼り付け境目をゴニョゴニョして、、、っていうアイコラ職人を自動化する方法もあるぞ >>57
じゃあ聞くなよ
聞いたら自作になんねーだろ 機械学習で遊んでみようと思うのですが、kerasが一番使いやすいのでしょうか? 機械学習ならscikit-learnじゃん。
あとはXGBoost、LightGBM >>65
SVMやロジスティック回帰やりたい時、君は何を使うの? Kerasが一番簡単だと思う。AutoMLでいいなら、PyCaretかAutoGluon使っとけ。 ありがとうございます!色々試してみます
あまり関係ないですがscikit-learnをスキキットラーンって勝手に読んでました いろんな方法があるけど
この手の問題はこの方法が第一候補みたいなデファクトスタンダード的なのはある?
とりあえずXGBoostとか
画像はCNN、深層学習とか
生成系ならGAN?とか
テキスト系ならこれとか 前のスレにあったPDFファイルでDNNを4層くらいで
データ数より多い横幅にして
ある方法で初期化すると
大域的最適解を学習できる
みたいなのが書いてあったと思うけど
実際に動かしたりした人いる?
あと圧縮できるくらい余裕があった方が汎化能力があるみたいなのも書いてあって
圧縮の方法の一つに量子化があると思うけど
素子の値の有効桁を変えたり整数で扱うとかで汎化能力が変わったりする? テーブルデータはCatBoost
画像認識はCNNからTransformer(Attention)に移りつつある
テキストはTransformer(Attention)
生成系はGANだけど、GANは考え方だからやっぱりTransfomerっていう
時系列予測は(Auto)ARIMAとかProphet?
異常検知はk近傍とかIsolation Forestなのかな?
次元削減はt-SNEかUMAP
クラスタ分析はとりあえずk-meansでいいのかなぁ
最適化アルゴリズムはなんだろね、ディープラーニングとしてはAdamだけど、汎用的には最近の流行りはやっぱり量子アニーリング? >>71
元の資料は知らんが、単純にDropoutのことじゃないの? 100x100の画像を50万枚くらい使ってい学習してるんだけど
ストレージをHDDからSSDに変えたら学習速度って結構変わったりするのかな?
それとも読み込みの速度差って無視できるレベル? >>77
GPU/CPUなりが100%で張り付いているなら変わらん。そうでなくても、その画像サイズなら、徐々にメモリに読み込んでキャッシュするようにしておけば、ほとんど影響ない
分散トレーニング(複数GPU利用)しているなら、高速ストレージを使うのがマスト 実際の実行速度で影響あるのはバックプロパゲーション部分がほとんどだからストレージの影響はあんまないでしょ。
よっぽど小さいモデルで単なる判別やるだけなら影響あるかもだが。 Yoloとかで画像内の大まかな位置検出、次いでU-netで細かい輪郭検出
一発で出来るデータセットあったらなあ ネットワークも欲しいしデータセットも欲しい
ところで最新の物体検出器のネットワークの各層の逆操作を丹念に作ってU-netに出来るのかな >>88
世界的に活躍中のモデル、ソン・ギョホンさんですね。 機械学習で処理してるならおk
最長一致法とか文節数最小法とかならたぶんスレチ 後、何年後ぐらいで本格的に人が要らなくなり
政府が対策を講じるようになるんだろな
日本はジジババ世代の影響もあり実店舗が他の先進国の2〜3倍あったと思ったが
それも大量に要らなくなりそうだし
田舎なんかコロナで市内のスーパー以外ほどんどの店で
スマホ決済だと25%OFFで物が買えるようになっているけど
スマホで決済している人を自分以外で見たこと無いぐらいなんで
今のジジババが生きてるうちは人が接しないと無理だろうけど 顔を見ただけで「この人に話しかけても無駄だな」
という老人は結構いる >>93
汎化性能どの程度か怪しいなあ
とりあえず日本人だけみたいだし >>97
やってないところあるんだな
市のキャンペーンで市内の店で購入すると実質25%OFFになる 単に顔認識してるだけでは?
データセットのトレーニングとテストに別れてるのかどうかも、
クロスバリデーションの記述もないし
色々おかしい >>94
リアルで出会う人間でも一目でそれと判るのが一定数居るよな
ボーダーは判らんかも試練がそれは機械でも判らんやろ 画像だけじゃわからんだろ。動画なら反応のおかしさで大体わかりそうだが。 >>105
違う。本人はとっくに非公開にしてる。
コード自体はforkされまくって拡散しているが。 んなもんリテラシーの低いあふぉを釣るための疑似餌じゃろ>>109 ソース流出したとかそんなことより年収300万なんてのが実在することの方が驚き
300万は額面だろうから手取りはもっと酷くなるだろうし 高めに判定して転職エージェントに客集めるとかなのかな >>113
それもあるだろうけど、
企業側には「私たちの転職サイトに登録している人は年収査定のためにGitHubに自作コードを公開した人たちなので、コードも書類選考の材料にできます」と
言えるのが利点だろう。
転職希望者と募集企業に両方に利点を作らないと差別化出来ないから。 有名なオープンソースのソースコードをコピーしてもわかんないの? >>112
まだコミュニケーション能力とか強調して言ってるんだな
文系色が強いと言うか
技術者系なんか特化して異常に出来る奴程
コミュニケーション能力が無い
それをどう組み合わせるかがスタッキングで精度を上げるのに重要なんじゃないのか
コミュニケーション能力高い奴集めると
https://it.srad.jp/story/21/01/04/1941201/
こんな状況になるんだろう
マネージメント専門とか経営専門とかいらねーってことで
根こそぎクビをはねて行って
破綻寸前から米国初の時価総額2兆円企業になったアップルもいるけど >>116
非効率な業務を撲滅できないのはエンジニアにコミュ力がないのも大きな原因の一つだったりするんだけどな
明らかに無意味でどう考えても止めるべきな仕事を見て見ぬふりをしたり、小手先の自動化でお茶を濁したり
本職なら心当たあるだろ? コミュニケーション能力ってなんだ?
定義が「仲良し能力」のケースが多くね?
相手に伝えたいこと、伝えてもらいたいいことを正確に伝達する能力がコミュ力だよな? >>117
何か言うと仕事が自分に降りかかって来るんで
放置ってのはあるだろうな
やったらやったぶんだけ金くれるならやるけど >>116
リーダーが退職したならwinwinではないかな コミュ力って、ウェーイ力じゃない
チームで一緒に仕事をしていく能力のことな
周りと円滑に意思疎通できないと困るが、世間一般でいう陽キャである必要はない >ウェーイ力
コーヒー吹きそうになっただろw
うむ、こういう簡潔でわかりやすい言葉選びができるのもコミュ力だな チームで一緒に仕事をする能力と定義しちゃうと
空気を読む力が大きく左右しちゃうぞ
それは×だな 仕事仲間も仕事の提供先も人間なのに空気読む能力を軽視してよいはずがないんだけど 空気読んで将来発生しそうな問題点を隠蔽したら仕事はうまく進まなくなる危険性がある そういう仕事論は飲み屋で部下か後輩にでも語りなさい みざる
いわざる
きかざる
日本はずっと昔からそういう國 さてこれまでトレーニング&推論実行型のコードをカスタマイズしてきたが
今後は推論実行オンリーのを改造だ DEEPネットワークはカーネルマシーンの近似らしいぞ 横幅→∞での話?
深層になればカーネル法より有利らしいが これこれ
Every Model Learned by Gradient Descent Is Approximately a Kernel Machine
https://arxiv.org/abs/2012.00152 変分推論が何なのか理解できていればそもそもそんな質問が出てくるわけがない ベイズ推定行うときに事後分布が解析的に出てこないような複雑な分布を近似する手法じゃないんですか?
間違ってたらすみません >>133
カーネル関数をデータから学習しつつ
カーネル関数で写像してから分類とかする
と解釈出来るって言うのは前に貼られていたpdfファイルにも書かれていたな >>134
ありがたい例がすぐに出てこないので
現時点ではない
覚えておくと便利だよ 下世話ですがデータマイニングで簡単にお小遣い程度稼ぐにはどんなアイデアがありますか 既存データは分析済みだからね
データマイニングしても何も得られないと思う この分野は、ディープラーニングだけ勉強しておけばOK? >>150
ありがとうございます。
この分野のブームのせいだと思われますが、最適化の本が売れているようです。
最適化の本はこの分野にとって本当に役に立つものですか? この分野と言われても範囲が広すぎる
もっと対象を絞って質問してほしい >>152
ディープラーニングに最適化理論は役に立ちますか? こういう質問をする人の想像してる「役に立つ」にはならんだろう ディープラーニングでも普通に最適化使っとるがな。他にもハイパーパラメータのチューニングで必要だわな あと、機械学習を仕事で使うなら、ディープラーニングだけで済むことはほぼ無いわな。データによっては精度悪くなるしな AutoMLでできるタスクならAutoMLまじ優秀。特にテーブルデータなら自分でモデル作る意味ほぼ無いと思うが、実際にはデータの種類の推測間違えたりするので、アルゴリズムの意味と必要な前処理はある程度知っておかないと、残念なことになる SGDは最適化とはちょっと違うだろ。
少なくとも最適化の文脈では汎化性能については説明できん。 SGDは損失関数と重みに対する最適化そのものだと思うのだが。フレームワークで指定する際の名前もそのままoptimizerだしな。そこだけソルバー使ってもできるしな SGDって単純な方法で最適化理論で扱われるようなものではないですよね。 最適化理論で扱われるもので、ディープラーニングで使われているものってありますか? >>164
量子アニーリングは応用が研究されてるけど、確かに最適化理論の分野で使われるアルゴリズム(単純なシンプレックス法や遺伝的アルゴリズムとか)が機械学習で使われてるって聞かないな。何でだろ、速度的な問題か? 最適化アルゴリズムの実利用は昔からされてるけど、機械学習(ディープラーニング)の中で使われている最適化アルゴリズム(Adamとか)とは分断されてるという話かなと 最適化、って話から入ってくると言うとは
cs専攻じゃない人がやり始めようとして疑問に思うポイントなのかな >>163
どんな条件を満たしていたら最適化になる? overparameterizationて日本語だとなんて言うの? >>163
どこからどこまでがあなたの思う最適化理論なのかざっと説明してほしい >>176
最適化法などというタイトルの教科書でページを割いて説明されているようなものです。 >>178
2chで理研AIPの資料を見るとは。参考になります ニューラルネットワークの学習は勾配法の変種が殆どだろう
勾配法自体はもちろん最適化の話の一部なんだが単純だけど遅いので教科書での扱いは少しだけなのが普通
ディープラーニングに役立てるためだけに勉強するのなら特化した資料じゃないと 単純、という言葉は相対的なものなので
理解のためには異なる表現が必要 どうやら質問者はOR系の最適化とディープラーニング系のSGDとかの最適化の区別ができていない為
回答者が混乱していると思われ >>177
質問の仕方から勉強した方がいいよ
長い人生で一番役に立つと思う >>184
あぁなるほど
脳の老化ってプルーニングかな 条件付き最小解を求めるのは同じじゃないの?
計算力が不足したり数式で解けないから
現実的な解法が必要なだけで じゃあメモリが圧倒的に増えて全バッチで最適化かませば良くなるかと言えばそうはならんのよ。 理論的にはOR系の最適化の方が遥かにしっかりしてるから
勉強するには面白いね 逆畳み込みで輪郭とか占有面積抽出
うまくやりたいもんだが難しそうだなあ >>190
学習がうまく出来るのと汎化能力は別問題だからな >>192
輪郭って普通の画像処理でもフィルタ使って実現してるんじゃね? ディープ使わなくても出来ることにディープ使うのはアホやろ 逆畳み込みを数式表現でしっかり書いてるサイトってほとんどないぞ おもしろいデータセット集めてるサイトって有名なあそことあそこの他にどこがある? >>195
重なりまくってて従来の方法で輪郭を取り出せない状況がある val accとval lossか同時に上昇してる場合ってどうしてる?
pytorch使ってるんだけど簡単にval loss下げる設定とかないのかな >>207
そもそもモデル間違ってるとかタスク設定がおかしいとか無視するなら、パラメータ数を増やす >>207
正則化項が合算されてないか?
純粋なlossはどうなん? ありがとう
多分タスク設定がおかしいんだろうなlossは下がってるし
もう少しデータ洗ってみるわ そのフォルダに無いから悩んでるのか
/tmpに保存されることも解らずに悩んでいるのか
どちらだろう 基礎から積み上げて理解していかないで
トップダウンで理解しようとする人が増えたね
良いのか悪いのか判らないけど >>216
理論の話ではなく、ツールの使い方の話ですか? どっちにせよ、よくはないな
わるいかどうかはしらん 理論ばっかり学んで実践しない人が周りに多いので、両面のアプローチが必要だわな。とはいえ理論が少し先行していないと意味不明になると思うけど 仕事でやっているなら、当然実践するわけですけど、趣味でやっていると手間とお金をかけて実践するほどの意味があるか? 機械学習をツールとして使うだけでも理論って理解してないと駄目なのかな?
畳み込みが何してるかとかぼんやりとは分かってるけど自分でネットワーク組んだりとかはできない
困ったら大体フォーラムに泣きついてるわ 趣味でやってるからこそ採算度外視して
予算を突っ込めるのでは? トラブルシュートを他人任せしているので
実践できているとは言えない
理論も実践も両方できていない >>213-214
tempの中は、DLした画像の一時保存先のようです
>>216
とりあえず色々サンプル動かして、試して見たかったのです
色々調べた結果、
plt.imshow(image)
の後に
plt.show()
が必要ということが分かりました、ありがとうございました! >>230
すいません、確かに機械学習関係ない部分でした
失礼致しました バックビルディング型線状降水帯を、深層学習(AI)で早期検知することに成功
研究:防災科研 水、土砂防災研究部門
www.youtube.com/watch?v=V-2O2V1d-70
訓練に使用したモデルは、国土交通省のXRAIN >>229
あーPythonで画像やグラフ表示する時のありがちパターン pandas最強説
前処理に必要な機能はなんでもついてて今までの苦労は何だったのか?と思える numpy は画像も扱えるけど
pandasも出来るのけ? pandasとnumpyはドメインが違う
普通にどっちも使う
numpyの画像データをpandasに入れて相関プロットするときはあるな reservoirネットワークて知らなかった
有名? Darknetを超える成果があれば紹介してくれ
のレベル。
2017年から引用論文数低いでそ >>241
darknetにreservoirネットワークが実装されてんの? yolact
物凄いな
でもgpuメモリ食いまくり
マルチGPU推奨 yolact++じゃなくてyalact?
環境作ってみようかな すみません, 初歩的な質問なのですがベイズ的にコインの表=1, 裏=0の予測を考えた時にそれまでの観測データ集合がDとして与えられていたら加法定理, 乗法定理より
p(x=1|D)=\int_0^1{p(x=1|μ)p(μ|D)dμ}
となるというのがわかりません.
加法定理よりμの周辺化がだせて, 乗法定理より
p(x=1, μ|D)=p(x=1|μ, D)p(μ|D)
まではわかるのですが,
p(x=1|μ, D)=p(x=1|μ)
となるのがわかりません。
どなたかご教授願えますと幸いです ナイーヴベイズぐらいしか判らん。
勉強して教示して下さいませ >>252
p(x=1|μ, D)に対して乗法定理を使っても
p(x=1|μ, D)=p(x=1|μ)
にならない気がします、
というよりは乗法定理を使ってこの式を出したのでもう一度使うと元の式に戻ってしまうような >>249
自己解決しました、条件付独立により消せたようです、勉強不足でお騒がせいたしましたm(_ _"m) 機械学習の予測と大きく乖離したデータが出た場合、なおかつ乖離したデータが重きを置く特徴量が同じである事が多い場合、いっそ省いた方がよかったりする?
過学習されすぎてるだけなのかな >>259
直感的に今の機械学習法ではうまくいかない予感 >>262
競馬です
年齢高い馬が実力や実際のオッズより過小評価されとる。。 年齢を連続値で入れるだけじゃなくていろいろ試してもダメ?
ビニング、若いor not、老馬or not、適齢期or notなど >>268
実験の詳細が分からんから助言のしようがない >>264
アイスバーンと地吹雪ホワイトアウトに対応できるの? >>267
回帰か分類かわからんけど、不均衡データとかそういう話であるならweight付けてみたら? 基本的にはダウンサンプリングの方が効果あると思うけど、何事もやってみないとわからん 少ないながら今後も確実に発生する事象を勝手に例外扱いして無視するなどという都合のいいことをするから
高精度を謳うのに実用時にまともな結果を出さないモデルで溢れることとなるんだよ >>272
だったら使えんな
今でも運転下手くそなレベルでも走れてるんだ
相当下手くそなやつだけが時々事故る
そんなレベルでは普通の道でも危なっかしい バッチ正規化とバッチ正則化って用語が違うだけで同じ意味? >>275
Batch Normalizationのことだと思うので、訳し方が違うだけじゃないかなぁ NormalizationとRegularizationは別もんでは? >>277
それだと標準化と正則化と訳すのが多いかなと思う。あとBatch Regularizationってのは聞いたことがないような >>278
標準化はStandardizationじゃね?
正規化は Normalization あわしろ氏は文脈に応じて訳し分けてると言ってたな。 正規表現 regular expression
正則空間 regular space
正規空間 ごめん、途中で書き込んだ
まあ、言いたいのは分野横断的だと面倒だなってこと 機械学習で正則化といえばロスに重みつけるやつで、正規化は入力か中間層をガウス分布に近づける操作やね causal learnigって日本語でなんて言うの?
原因学習? 因果関係学習? 日本語訳マジでやめて欲しいわ
意味が分かりにくすぎる Visaのタッチ決済とは?使い方やおすすめカードを紹介 >>295
せっかくだから自動字幕も付ければいいのに >>297
右下の手話の同時通訳も頑張れば3 D モデルで自動生成できるよね 横断しようとしている歩行者がいたら停止する
法定速度を守る
道路が汚れていたらどうするか
ものが落ちていた場合、どういう場合に無視するか
人間でも難しい問題が山積み 日本中の道路を 自動運転用に整備すればいい
たぶん20兆円ぐらいかかるだろうけど
ちょうどいい公共事業になるだろう 50年後
「次世代形式に対応してないのでもう一回お願いします」 LINEの個人情報が中国へだだ洩れだった問題で
LINE「説明が十分ではなかった」ってことでいろいろ説明してたが
結局、元々そんな仕様になっていて問題はないっていう
どこが問題では無いのかっていう そうせずになんとかなりそうな目途が立ってるのに
さすがにだるい >>307
規約に書いているのにきちんと読みもせず「そんなこと了承していない!」と怒っているだけ 書いてあってもダメ
書いてあると主張すること自体がダメ
現に情報の保護がばっちりだと大体的に宣伝しているから
規約にあったら悪意をもって虚偽広告したのは明白
業務停止が妥当レベル ネトウヨさんは意外と騒いでないのは菅が広報でガッツリ使ってるからなんよねw
だからこそ今までLINEのばなしにしてたんだろうけれど。
あいつらはほんまダブスタ丸出しなんだわw 言った言わないとかどうでもいいからさっさと禁止しろよ 同意したわけでは決してない
不誠実さや卑劣さを知らないわけではない
社会に屈服したんだ ネトウヨさんが意外と騒いでないのはLINEが韓国国家情報院が開発したもので情報が国家情報院が流れているのを知ってるからだよ
LINEを使っているのは情弱の馬鹿 >>318
重要なのは論文か国際会議への投稿だと思うけど https://diamond.jp/articles/-/266872?page=4
ここで出てくる「2020年、前述した ebmt の手法が復活して nmt の上に追加された」というのはknnmt のこと? ebmtの概念は、深層学習モデル以前のSMT的ものなので、knnmtとは別物だと思う。
Google scholarで論文を探してみたが、Sumita+ebmtだと2004年くらいに
1件ヒットするだけで、恐らく、ebmt+nmtのテーマではまだ論文発表はしてない。
記事は、一般論的な書き方をしてるが、ebmtを取り込んだのはNICTの翻訳エンジン
であり、この流れが広がっていくかは別問題。
NICTのアプローチはどちらかというと、モデルパラダイムよりもデータ重視の傾向が
強い。ただし、NICのデータパラダイムは、最近Andrew Ngが提唱してるデータ
重視論とは異なり、MTの精度向上を専門辞書の整備や、分野別コーパスなど
人手をかけることで解決するというかなり泥臭いやり方となる。ebmtを持ち出したの
も多分、それと同じ。 うむ、見事なまでに何も判らん。
修行が足りんのか、分野が違うんだろうなぁ(遠い目) ニューラルネットワークの訓練における正則化は汎化性能の向上を目的としている、であってる? グーグルのベンジオ(便所?)とかいう人が同僚二人の解雇に抗議して退職したとのことです。 googleさん闇落ち?
ちょっと前にも解雇騒動あったでしょ reddit見る限り、ググルのことを陰謀を企む悪の組織と誤認してる電波が少しいて、
ググルを叩く風潮に嫌気が差してる人がほとんど
ゲブルの評判が悪い悪い(笑)
lecunと議論せずにひたすら上から目線で自分の論文を嫁としかツイらなかったせいで嫌われた アメリカのテック系大企業は経営者に歯向かったら割と簡単にクビになるし特に珍しいことでもない
クビにしたところで世界中で優秀な人をいくらでも集められるから
日本企業は報酬もグローバルでの地位も魅力がないのでむしろ労働組合と関係良好なことをアピールする 優秀=白人(プロテスタントまたはJewish)金髪碧眼将来は毛男性 ってか・・・?w MS&GoogleのCEOインド出身だったりするけどな ちょっとこれは、かなり難しく、力をお貸しいただきたいのですが、
自分でニューラルネットワークを作ろう
https://qiita.com/takahiro_itazuri/items/d2bea1c643d7cca11352#comment-a59cd26161ee56ea1220
の記事で質問があるのですが、
なんやかんやで大体ざっとは理解できたのですが、
重みの更新式
# 重みの更新
self.w_ho += self.lr * np.dot((e_o * self.daf(o_o)), o_h.T)
self.w_ih += self.lr * np.dot((e_h * self.daf(o_h)), o_i.T)
この式の意味が本当に分かりません。
※*は、成分同士を掛けて行列積を求めるもので、np.dotは普通の行列積になります。
一応
隠れ層から出力層への重みによる偏微分
入力層から隠れ層への重みによる偏微分
の部分は読んで、まぁそうなるんだろうなとざっと理解でき、
【深層学習】誤差逆伝播法|バックプロパゲーション
ttps://youtu.be/X8hK4ovQoLg
この動画を見たりしたのですが、
まず1つ目の
self.w_ho += self.lr * np.dot((e_o * self.daf(o_o)), o_h.T)
からよく分かりません。
可能であれば、複数の式になって良いので、スカラーによる計算式で示して頂きたいのですが・・・なぜこのようになるのか、を。
たぶん、
隠れ層から出力層への重みによる偏微分
入力層から隠れ層への重みによる偏微分
にある「重みの式」に代入していくような感じだとは思うのですが・・・。 >>337
そのQiitaの記事のコードの上の方に数式は具体的に書かれている訳だけども、
まずそっちは理解しているのかな?
理解できてないのであればまずは線形代数をしっかり学ぶ必要があると思う >>337
dWの微分を行列で表すとそうなる
ほとんどの本ではそこは省略されてることが多い スカラーから行列に手計算で直すのが良い
あとミニバッチ対応だと行列以外では表現できないから
行列は必須 経営者に歯向かうって
日本の95%ぐらいが同族企業で新しい芽はすぐ摘まれるのに
そんな歯向かう程意気込んでいる奴が居るのか?
何か反論してお前がやってみろ的流れで上げ足を取られないよう我慢較べに耐え
マイナスポイントを作らないように頑張るぐらいが
日本のサラリーマンのやる気だろ そんな使い捨て分野の勉強もいいが
サラリーマンなら腰巾着として生きていく道も悪い選択肢ではないぞ
方向性を間違ってしまいそうな準社畜勢が多く集まっていそうだけども 年収 >= 20万円 x 年齢
を満たしつつ、楽しく平穏に働きたい https://ocw.tsukuba.ac.jp/data-science/
筑波大学では、平成31年度10月より、情報教育に関する共通科目として「データサイエンス」を開講しました。
「データサイエンス」の授業では、データサイエンスの基礎的概念を理解し、
コンピュータを利用した基礎的なデータ分析技術を学ぶことを目的としています。
筑波大ではデータサイエンスが必須になった
更にその内容もデータサイエンスに留まらず
流体力学もIoTも何でもあり
もちろん地道な検定とかもやるんだな >>350
良く分かんないページだ
オープンコースの説明?
ラボの説明? >>350は筑波大の学生全員共通科目だな
筑波大といえば学生が授業を見るためのデータベースを
学生が独自に作ってしまったとかで最近話題になった
もっと前には、構内でしたい放題しまくったスーパーハッカーがいて
いい所に就職できたんだっけ >>350
流体力学なんて大手メーカーの開発職ぐらいしか使わないぞ
やるだけ無駄 >>350
これって導入のところの一項目が授業一回分になるのかな?
ラボの説明聞いて終わり? >>353
研究機関でも使う
そして研究機関でパラメータをひねりまわしてるのは派遣PGだったりする >>352
受賞はタイーホのライセンス!的なアレですな https://www.youtube.com/watch?v=JUU3CWnDya8
強化学習とDNN画像認識を組み合わせて、
マンデルブロ集合の図形を自動検知、自動拡大 >>358
アーモンド的な模様を探して拡大?
マンデルブロを計算せずにってこと? なんちゃらのなんちゃら休むににたりってやつだな・・・ >>358
自己相似の構造を見出すことに成功か
このスレは何でもかんでも深層学習にしなくても
統計学っぽいのも一応はいいのかな
k-means法とかクラスター分析とか位相的データ解析とか 深層学習は機械学習を実現する一手法に過ぎないからね >>363
昔ながらのサポートベクトルマシンとか
マハラノビス距離に基づく分類とか
ランダムフォレストとか マハラノビスも最近は機械学習に
分類されるのか。orz >>1
データ少ないときは深層学習じゃない方がいいの? データが少ない時は決定木系でいいよ
特にテーブルデータ 機械学習は機械的に学習できる手法の総称でしかないので何でもあり >>361
k-means はあらかじめクラスタの個数は指定しないといけないから、クラスタの個数がわからない状況では無力ですよ‥‥ しっ、よしなよ
めちゃ早口で言ってるじゃん
rubyガイジ引き込む前兆だよ まあしかしk-meansとかのクラスター分析ってなんか意味あんのか?って思うことはよくある。
教師なしでもPCAなんかはまだ使い道わかるけど。 クラスター分析は深層学習以前の統計解析が主流だった頃のNLPでよく使った。
よく使ったのが、大量の学術論文をベイズ分類器でテーマ別に分類して、分類後の
集合をさらにクラスター分析で類似文書ごとにまとめるというもの。
クラスター分析は、BOW的なデータ構造であればなんでも自動分類してくれるので
例えば画像ファイルからカラーヒストグラムを生成して、色分類ごとの色強度のデータ
ファイルを作れば、画像分類とかもできたので面白かった。
あと、クラスター分析とは違うが、最近、 誰かがNLPにおける教師なし学習の
新潮流について触れて、例えば、よくあるワードベクターの2次元マップ(Word embedding)
を作り、英語とドイツ語のマップを重ねると英語とドイツ語の対訳辞書を自動生成
することも可能になるはずとか話していた。教師なし学習で対訳辞書みたいなものが
自動生成できるかもしれないという考え方は斬新だなと思った。 >>373
類縁グループを定量的に調べられるのなら
分類とかだと非常に有効だね k-meansとかのクラスタリングで
正常クラスタ群と異常クラスタ群に分けられる?
過去に異常検出した時のデータと正常データを区別できるようにしておいて
クラスタリングを繰り返して上手く正常と異常に分かれるクラスタ数を見つける
新たになデータが各クラスタのどれに属するか判定して
異常クラスタに属したら異常の可能性があるから
調べるとか運用停止するとかの対処をする いや、分類ってそれなりの分類の尺度をユーザーが決めるから意味あるんじゃねーの?
機械学習的に分類しても、で?っていう気にしかならんのだが。 >>379
よく問題になるのは生物の分類だね
分類から主観を取り除くことが出来る
主観こそが大事と考える文系の為政者、経営者にとっては
邪魔な時がある ある種の外れ値を認識する方法としては意味ある時もあるか。
主観がどうとか言ってるのは全く的外れにしか思わん。
逆に主観とのある種の一致性を無駄に主張する道具には使われてる印象だが。 外れ値は外れ値だけ正常値は正常値だけ近くなるような距離関数選んで
dbscanにかけろよ コンドルはワシタカ目(もく)なのかコウノトリ目なのか
とか
フラミンゴはコウノトリ目なのかガンカモ目なのか
とかを骨格とか卵白のアミノ酸配列などに注目したりとか
色々指標を変えて学者が二百年も言い争い続けて、
結局はDNAの塩基配列をクラスター分析したら、
https://ja.wikipedia.org/wiki/%E9%B3%A5%E9%A1%9E#%E7%8F%BE%E7%94%9F%E9%B3%A5%E9%A1%9E%E3%81%AE%E7%9B%AE%E5%88%86%E9%A1%9E
コンドルはコウノトリに近いんだよ〜って20年前の自称鳥類物知りが語ってたのに
結局ワシとかに近い方に入れられてしまった >>383
で、その分類を誰がどう使うんだ?
そこで「正しい」とか主張することになんの意味があんの?
ってところを全く考えてなさそうな頭の悪さが見受けられる。 >>384
ある論争があった学問分野に
1つの解を与えた(これで解決したとは言っていない)
というだけでも恩恵はあるんじゃないかな どのレベルで「客観的な分類なんて要るのか?」
と言いたいんだろうと思ってたが
古典的な哲学寄りの煽りだったのか 自分の頭が大丈夫かどうか
それは誰にも分からない
腹が減ったのは分かる 人間の恣意的な分類より
体型的で規則的な分類の方が個人による分類の違いがでないから分類結果の共有に間違いが少ない 機械学習で分類するには分類基準をまず人間が与える必要がある訳でそれを客観的と言えるのか 客観的である必要はない。
人間にとって分類しやすいかどうかのがよっぽど意味があるというのに。。
分類をなんのために行うのかさえわかってないでk-meansで出ましたとか言ってるバカは
機械学習とかやめてほしいわ。印象を悪くする。 >>392
全く手段がないというわけではないんですね‥ありがとうございます
>>392
URL内結論コメント
>>現実のデータを使ってエルボー図を書いてみると、上記のような「綺麗なヒジ」はなかなか現れない
>>言いたいことはエルボー図の時と同じだ!!! >>394
自然科学は自然を理解するモノだから
人間の考えより自然の方が正解
対象によって何が正解かは違ってくる
人間の都合で良いものは人間に合わせたらいいけど
自然科学は自然が正解
実験結果とか実際と差があるなら人間の仮説の方が間違いだから修正する 元のデータ空間のままでk-meansが上手くクラスタリングできない場合は
別の空間に移してからクラスタリングすると良いかもしれない
DNNも入力に近い層で空間を移していると解釈する人もいるし
どんな写像にするかをデータから学習していると考えられる
中間層の出力を使ってクラスタリングすると上手く分けられるようになっているかもしれない 測定誤差や間違いを多く含むデータを利用し、人間の主観が入った機械学習を利用している時点で… その測定誤差を低減する上で必要な基礎知識って大学のデータサイエンス課では教えてなさそう
https://www.ds.shiga-u.ac.jp/about/ds/curriculum/
ジャンル的に工学部の履修内容だからか? どんな手法でどんなデータを計測するかということを設計する時点で設計者の主観が大いに入り込むことを理解できずに
データだけから判定を下すのだから客観的だろと言っている自称DSが多過ぎる >>397
クソ馬鹿野郎は黙っててくれ。
物理においても人間の主観を蔑ろにするようなバカは話にならん。
量子力学も相対性理論も厳密には正しくないニュートン力学にどのような意味で帰着されるか
厳密に考えてる。
そういうことをまるっきり理解していない輩は消えてくれ。 GeForceの新規生産をCUDA動かない新verに切り替えるらしい噂
マイナー相手に争奪戦で勝てる気が全くしないw >>404
CUDAが動かなければGeForceの意味がない。ディープラーニングでもゲームでも使い物にならない。CUDA性能を維持してマイニングに使えなくするのがマイニング対策済30x0では? >>404
それはマイニング制限とは別の話?CUDA使いたければTesla買えとか? >>402
人間の主観じゃなくて観測する側の状態じゃね?
主観だと観測する状態は同じでも人によって違う結果になる
そうするとどんな値でも間違いではなくなる >>399
測定誤差は正規分布に順うとしたら誤差の平均値が判るからその値を調整したらいい >>401
主観が出来るだけ入らないように実験計画するんじゃないの?
主観を出来るだけ入れるように実験計画する? 量子論の不確定原理なら人間の主観とか関係なく不確定なんじゃね?
不確定だとしても確率的には値の差があるだろうから9割はこの範囲の値とか決まるだろうな
どんな外れ値でも確率ゼロではないから絶対に間違いとは言えないけど観測される頻度は稀になるはず
それよりも大きな頻度で観測されたら仮説の方が間違いなのは変わらない >>409
正規分布という名前が悪すぎます、ガウス分布でいいのです
ガウス分布は数ある誤差分布の one of them >>412
現象を説明する為にモデルを当てはめる時点で主観入ってる All models are wrong, but some are useful. ニュートン力学は間違ってる(厳密には正しくない)から使えないとか言い出すやつは頭悪いだろ。 >>421
スレタイと関係ないと思っちゃうのか。。そりゃ頭悪いな >>404
CUDAを動かなくする、という情報は少なくとも自作板では見つからなかったな >>417
ロジャーペンローズが似たようなことを言っている 人間が考えるなら主観が入り込むというなら全てに主観が入り込むことになる
つまり主観という点では差がない
出てくる成果には現実を上手く説明できるかどうかの差が生じる
より現実を説明できる成果は単なる個人の固定観念とは違う価値のあるもの
現実と合致する程度が高い成果は一個人の主観とは言えない程に質が変わる 主観的か客観的かは重要ではない
どれだけ客観的な手法を構築したとしても予測精度が低ければ使い物にならない >>420
君は>>416の英文をきちんと理解できてるのかな? 新卒で機械学習エンジニアになったけどGUIで学習するツールが導入されてて、マウスポチポチするだけでお仕事になるの納得行かない >>430
そう、危機感を感じている。
データサイエンス協会の人たちに「ライブラリが使えるだけじゃダメ、数学頑張れ」って教わってきたからモヤモヤする。
ツールでだめだったら即諦めってのも悲しいところ データの仕事するなら数学よりコンサル力が重要
もしくはWeb分析や製造管理などドメイン知識を学んで特化するかだな
技術系でいきたいならクラウド使って基盤から自分で作れるようになれば引く手数多
最適化エンジニアは自動化されて終わるよ メーカー研究開発やってるけど機械学習に対する敷居はここ数年で大きく下がったね
GUIツールなら実験系の人でも普通に使ってるし
データサイエンスに加えて、それ以外の専門を持たないと厳しいね >>432
会社バレしたくないから言えないですごめんなさい
>>434
Web分析やりたいなぁ スクレイピングさせてもらえるなら楽しいだろうな
>>435
ドメイン知識大事なのはわかる
世の中の全員が機械学習できるようになったらとても楽しい世の中になると思う >>436
特殊なシステムか。。。
ソニーの奴辺りを使ってるかと思った >>435
というか、専門分野を持たない統計屋が成り立ってる現状が疑問
数学をさらに極めているアクチュアリーでさえ、金融工学等でスキル補強してる だからデータサイエンス学部とかちょっと心配になるね。 データから突き詰めていけば
その領域の構造も見えてくるんじゃないの?
予備知識として知っておいた方が良いけど
先入観とか思い込みで新たな発見を阻害しているかも データから突き詰めて、分かった事実の99%は、その領域の人間にとって、何を今さらって言うレベルの常識なのが現実 (1)マーケティングの成功 (ただ単に運がよくはやれたってだけかもw)
(2)1%に賭けてるところもあるかもしれない (薬系なんかは特に) いわゆる「暗黙知」の問題を解決できるから
例えば、初心者に対して説明しやすい
あまりにも当たり前だと思い込んでしまっていることは
そもそも話そうとすらしない それも現場では当たり前だから話そうともしないけどね。 データサイエンス学部って企業と組んでむしろゴリゴリドメイン細分化してなかったっけ
DS実用化の観点からは正解にも見えるけど 企業と組むっていってもデータ渡されてモデル作るだけでしょ
少なくともうちの会社と大学の共同研究はそう
そんなもんKaggleと大差ないよ ほんまやね
新しい学部だし企業でもないからそこまで深くコミットすること出来ないんでしょね 基礎だけ教えるだけでしょ
あとはpythonかrあたりを習わせて リコメンドとかは個人毎に人がやるのは作業時間的にむりなんじゃね?
作業時間は人件費、コストになる
売上アップ分より少ないコストで実現できれば投資する価値がある 当たり前と思われている事も
具体的にどの顧客やケースに適用できるかは
勘でしかわからなかっただろうから
担当者毎に違う判断をすることになる
ある担当者は知見を使えると考えるけど
別の担当者は知見を使えると考えない
その知見が明確に認識されていなければ組織内で共有もされていないだろうから
経験の浅い担当者はその知見があることすら認識していない
知見を可視化する事は共有可能になるし
組織全体の成果の底上げにつながる 一般論としてはその通りだけど、実際の仕事では一般論じゃなく個別の課題に対して何をどうすればどう効果があるのかを説明できなきゃいけない
容易に想像できる通り、そのためには最適化より重要なスキルが山ほどある 解くべき問題を探し回って捻り出さなきゃいけない時点で相当なハンデなんだよな
普通のソフトエンジニアリングだったら、解くべき問題なんてそこら辺の事務のおばちゃんに聞けばいくらでも出てくるだろう
逆に言えば解くべき問題を見つけられる人間に希少価値があるとも言えて、だからコンサルの飯の種としては最適だ
一方で解く側の人間にとってはパイの小さな分野だと言える 今の世界中の課題は新型コロナ
データサイエンスで何ができるか 少し前に目の結膜か何かをカメラで撮ると感染しているか判別するAIアプリのニュースがあったな
役に立つのか知らんけど ガンとか他の病気も早期発見できたら役に立つと思うけどな
トイレの便器にセンサーつけて異常検知するとか言うニュースもあったな
コロナ禍でストレスかかってる人が増えているとかも聞くし
早く検知して対処できたら良いんじゃね? 普通のソフトエンジニアリングでも、データドリブンな開発というのはこれから重要になっていくと思うけどな。
その辺のおばちゃんが言ってることをデータを収集して分析して、本当なら改善すればいいし単に特殊例でそうなっただけならスルーすればいいし。
定性的な開発で済む場合もあるけど、定量的な開発ができることで業務改善できる分野はいっぱいあると思うよ。少しでもそういう見方で意味論をある意味捨象して数値で評価しようとする立場の人間が増えることはいいことだと思うけどな。
まあ、数値の評価ってのはいかようにも出せるので、文系的な議論がしっかりなされた上で数値的な評価で裏付ける、というのがよいと思うけれど。 事務のおばちゃんを例に出すまでもなく、ソフトウェア・エンジニアリングはマネタイズの方法がたくさん開発されてて実績も豊富
DS分野でいうとBI導入が流行ってるのもマネタイズの分かり易さからでしょ ソフトウェアエンジニアリングとかソフトウェア工学って
ソフトウェアを作るときにバグをどうやったら少なくできるかとか
生産性を上げるにはどうするかとかそう言う分野のことを指すんじゃね?
ソフトウェア事業とかソフトウェアビジネスって言った方が良い マネタイズできてるのはかなりの規模で使われた場合ばっかだろ。
中小や受託案件なんかは全く関係ないわ。 >>454
むしろ、コロナ騒動でデータサイエンティストの無力を実感
・国や地域によって患者・重傷者・死者のカウント基準が異なる
・陽性と判定するCt値も同様に定まっていない
・PCR検査以外の感染者の検出方法ほぼ全てで擬陽性が多分に含まれる手段を用いている
データとしてゴミだらけで統計以前。
これらに問題提起をして的外れな対策に意見すべきであった 検査数(当日)と患者数(2日前)とか
そこからかよ。みたいな >>462
所詮雇われ屋しかいないしな
まともな予測出したのって北海道の免疫学の教授とGoogleくらいでしょ 頼れそうなデータは重症者と死者数なんだが
死んだときに感染していればカウントするそうだから
データとしては「かなり」多めに出るな
誤差さえわからない +日本の新規感染確定@PCR分てのは保健所分だけ公表で、医療機関独自系は非カウントなう ワクチン開発で多数の候補物質からふるい落とすとかに活用したらしいけど
そういうのは半端なくドメイン知識いるし >>469
候補を出すだけならいらないんじゃない? データサイエンティスト「こちらが候補の一覧です。何の物質なのかわかりませんけど。」
お客さん「・・・」
おわり やっぱデータサイエンチストに任せずに自分でやったほうがいいか >>471
物質名か構造式が出てくれば後は自動で絞り込めるよ
まあそれもデータサイエンティスト側でできるか 製薬やマテリアルは自然界の物質をそのまま変数として使えるから、さほど難しくないテーマ
世の中の大多数のテーマは変数の生成から始めないといけない データの意味を知らずにできるような単純な問題ならそれこそデータサイエンティストなんか要らんよ
親切なツール使えば現場の人間でも難しくないだろうし、近い将来完全に自動化される ワクチン開発でDNNを活用するというのは異常に難易度が高いよ。
例えば、コロナウィルスの場合、COVIDウィルスのスパイクのタンパク質配列とかを
学習データに使用するけど、普通は、この種のウィルス特有のデータを10種類以上
選択する必要がある。このデータ選択は、ウィルスの専門知識がないと無理。
状況によっては公開データが用意されていない場合もあるので、その場合は、
研究室でタンパク質配列とかRNA配列とかを解読する作業も必要となってくる。
さらに、DNNに関しても、既存のネットワークを流用することはできないので、
新規にネットワークのアルゴリズムを作る必要もある。この作業は、普通のAI
エンジニアでは無理。更に、機械学習に関してもかなり膨大なGPUリソースが
必要となる。また、専用のネットワークは動かしてみた上で修正を入れるという
作業が発生するため、TPUv3x1024くらいのリソースを開発期間の数ヶ月に渡って、
占有するという状況が発生する。開発要員としてはウイルス学、AIの各領域のポスドク
クラスの専門研究者を10人くらい集めて、さらにクラウド費用として数億円くらいアサイン
する必要があるかもね。まあ、これはほとんど不可能な要件なんだけどね。 >>477
去年効果のありそうな物質の候補をリストアップしたニュースがあったな
それになんでもDNNを使わなくて良いし 東大卒 旧通産省・工業技術院の元院長・飯塚幸三
「ブレーキを踏んだが、車が加速した」
流石高学歴で上に行った奴だな
この程度の嘘を平気でつけるのがこのクラス
AIで犯罪を起こしそうな率を検出させてみると
政治家とか企業のトップとか軒並み率が高そうだけど
末端労働者程率が低かったりして
犯罪者が作ったルールに一般市民が従っているっていう 菅義偉の詳細データ入れると
99.9%とか出るんだけど
菅総理だけ表向きの事情で0%にしないといけないっていう
そんなチューニングがメンドクサそう
特別なチューニングを何個もやってるうちにおかしなシステムになって
最終的に末端が叩かれて
一般人が犯罪者になるっていう あわしろ氏は、AIはベイズ推論だけで十分だって言ってたけどね。 十分というか今AIと言われているものはほとんどがベイズの枠組みで記述する方が分かりやすいし柔軟的に拡張できるからな ビショップの本を買ったのですが、積読状態です。
気合入れて読む価値はありますか? フィールズ賞受賞者のD. マンフォードらのパターン認識の本が全く話題になりませんが、あの本はどういう位置づけの本なのでしょうか? >>487
今なら深層学習を最初にやるべきだと思う 知らん。
ニクラウス・ヴィルトとかクヌース級なのか?
Joseph Redmon氏を超えたら紹介してくれ ネタだと思って何も言わんと本気にする馬鹿が出てくるというアレだな。 Colab pro日本からも契約できるようになったんだよな 月1000円ちょっとだから家で機械学習で遊ぶのにいいかなと思って 我勉強中なんだけど、
「RMSE(平均平方二乗誤差)を使い求まる解は、誤差が正規分布に従うという前提の下で求まる最尤解と同じになる」
これってどういう意味? >>505
正規分布を使って最尤推定の式を立ててみな
式変形したら結果がRMSEと同じになる 誤差分布と正規分布の違いとか最近基礎を忘れてきたな。。。 colaboratory使えばGPU買わなくても大丈夫? >>510
マジ!?
本番サーバのバッチでも使える? 「X_train, X_test」の大文字ってどうしてます?
面倒なので小文字にしたいのですが、不都合ありますか? >>512
その変数名にしてる人たいていクソコード書いてるから
ちゃんとした入力変数の名前にしたほうがいい >>514
Xの大文字を打つのにシフトすら面倒だって言ってる奴にちゃんとした変数名付けろって言っても、馬の耳に念仏なんじゃないか
概念の説明にはx,yが出て来るのは仕方ないとしても、
実際の分析では意味のある名前付けた方がいいというのには完全に同意だけど。
x2やy2に相当するものを使いたくなるときもあるし、
将来コードを見返す自分は赤の他人だと思って分かりやすく書いておかないと折角の努力が資産にならないよね。 >>516
その辺の機械学習の概念を理解するお薦め本ありますか? いや、pythonの規約を普通に守ればそこは小文字始まりだろ。
それを破るならそれなりの理由が必要だわ。 jupyter notebookみたいな書き捨てコードだったら何でもいいよ ていうか変数名くらいAIでわかりやすいの勝手に付けて欲しい
人間が考えるのはおかしい テンソルの変換するからXだの言われても辛いのよ
前処理も一緒にやる場合はどの段階のXなの?ってなる >>521
そこまでAIができるなら、お前らなんかいらんわ 行列だとしても、単に大文字だとわかりにくいから、mat_Rとか名前つけることあるな。回転行列だけど。
数式ですら字体や添字で区別を色々つけないと訳分からなくなる。 回転行列?
転置のことか?
転置は昔からTと相場が決まっとる 長くてもいいから読めば分かる名前にする。これが原理原則
メモ帳でプログラミングでもしない限り補完してくれるので変数名の長さは問題にはならない pycharm使っている人います?
有料の価値ありますか?
VSCodeを使ってますが、プラグインやカスタマイズが面倒なので、pycharmに乗り換えようかと
ワタシは初学者です >>528
実際やってみればわかるが長すぎる変数名、関数名ばっかりだと視認性を恐ろしく悪くする。
適切なスコープに対する長さが重要。 >>532
ない
どうせ必ずPython以外の言語や設定も扱うことになるんだからVSCodeに慣れたほうがいい vscode一択
業務でPython, JS, powershell, bash行き来してるけど全部vscodeだわ RのサポートはRstudioのほうが気が利いてるかな vscode,vim,emasなんでもいいけど、ある程度汎用のエディタのがいいと思うわ。 俺はvim
補完とかpythonで必要な場合がほとんどない
特に機械学習では型もテンソルなんだけど
shapeを型として認識しないからあってないようなもん jupyter使っててすら、define-and-run方式の深層学習フレームワーク使ってたら、結局実行時にしか型のエラーってわからないしね。
printするしかないときよくあるね。 Keras使ってたけど、Pytorchも使うようにしたわ
最新の論文で実装されてるのがPytorchが多くなってきたんで caffe2=pytorchだし
YOLOV5がこれ専用だし 商品レコメンドをやりたいのですが、pythonでおすすめのライブラリありますか?
データはアクセスログ、クリックログなどの暗黙データです。
調べたところ、レコメンドに関してはライブラリが少ない感じだったので。
implicitパッケージくらい? >>547
仕事といえば仕事なんだけど、自宅待機中の勉強ってことで機械学習やってる
会社のためというよりは、転職に備えてという感じなんだ >>546
んじゃ、お前はこのスレで一切情報を得なかったんだな
得てたら金払えよ 逆に同業者が知ってないと迷惑って話もあるからそれは極論だわな。 仕事で専門でやってるのに基本的な知識もなく自力で調べようとする能力もないならこっちとしては今後は関わらないようにするだけでしょ
わざわざ教育してやる必要もない そうしてきてバカで溢れて今苦労してるってのがこの業界だろうに。。 最近レコメンド実装したけどレコメンドってあんまり進化がないよな
協調フィルタリングという古典的な手法を使ってしまった それを超えるアルゴリズムを開発して
論文発表しても良いのよ >>563
ネコを種類別にしてたくさん見せれば可能 そのうち人工知能で学習したパラメータの膨大なデータベースができて、人間の知能を超えたらもう俺たちは何も考える必要はなくなるのかな。
そうなると俺たちは、単なる有機体の塊くらいの価値しかなくなるのか。 その前に機械学習が完全自動化されて俺たちが無価値になる未来が目前に迫っているから安心しろ >>566
目前って具体的にはいつ? 実現される根拠は? >>568
実はこのスレのレスもお前以外は全部GPT-3搭載のbotだよ 人間が諸悪の根源だからな
AIが権力を持ったら
直ちに殲滅だな 人工知能学会の資料に書かれている内容について教えてください。
不動産情報ポータルサイトSUUMOでのデータ活用(※PDFです)
https://jsai.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=8811&item_no=1&attribute_id=22&file_no=1
2ページ目 > 3.リコメンドシステム > 3.2従来型アプローチ > 1コンテンツベースフィルタリング
「間取りなど、カテゴリー変数を取り入れる場合、類似度を直接に算出できないため、ログから同時検索される確率を類似度として用いている」
↑上記資料には、このように書かれています。
この「カテゴリー変数は、類似度を算出できない」のは、なぜでしょうか?
順序が無いカテゴリー変数は、隣り合った数値であっても近さを表現できないから、という意味でしょうか?
また「ログから同時検索される確率を類似度として用いる」というのは、具体的にどのような処理が想定されますでしょうか?
(経験不足のためイメージできないもので。。。。)
以上、もしわかる方がお見えでしたらご教授いただければ幸いです。 >>577
ログってのが何なのかわからないけど
その文脈で言うとtf-idfのことでは?
それを使ってコサイン類似度を求める
深層学習が出る前はその手法が割と使われてた 第1検索語、第2検索語で
同じ第1検索語の時に第2検索語の分布が出来るから
その確率が高い物は第1検索語との距離が違いって感じかも >>577
カテゴリ変数の距離を自分で考えてそれが妥当ならそれを採用してもいいんじゃね?
間取りだと1R,1K,1DK,2K,2DK,2LDKとか有るけど
1K,1DK,2K間の各距離をどう計算するのが妥当か >>577
カテゴリー変数は量的変数と違って
赤と緑、赤と青どっちが近いかこっちで決めないと行けない
ログは人気投票で赤と緑をクリックする量と赤と青をクリックする量で
決める >>582
色だと光の周波数に数値化できるからそれで距離を計算するとかできない事もない
好きな色を選んでくださいって言う場合には周波数で距離を求めるのが妥当かわからないけど
もしかすると周波数と好みの間に関係があるかもしれない
周波数と好みに関係があるという仮説を立ててデータで検証するときは周波数で距離を決める事になりそう >>577
1DKと2Kの区別は、不動産業界ではあるかもしれないが、不動産サイトを検索する
一般人にとっては主観的概念でしかない。したがって、業界の基準をそのまま当て
はめると一般人の検索行動と乖離が生じ、サイトの定着率が悪化する可能性がある。
そのため、検索サイトでは従来からアクセスログを解析することで、時空間的に
近い検索を「近い概念」と考えて、ユーザーに明示的に示す手法がとられてきた。
これはいわゆる「この検索をした人はこういう検索もしています」とか「この
商品を見た人はこの商品もみています」というよくあるレコメンドのやり方となる。
このレコメンドは、Wilson score intervalという統計解析手法に基づいており、
検索履歴を時系列で扱うことにより、特定の検索A1とそれ以降に行った同一人の検索
A2/A3...の近似距離値を自然対数のカーブのように指数的に低減させていくことで
A1に近いらしい他の検索入力を求めるというものとなる。
ただし、このアクセスログ解析法は、特定の検索の後に行われた検索パターンを
逐次、解析する必要があるため、大規模サイトの場合、計算量が膨大になりすぎる
傾向があり、大手ではこのためだけに解析用のクラスタコンピューターを導入する
ケースもあった。上の論文では機械学習を新手法としているのはそのためとなる。 誤)特定の検索A1とそれ以降に行った同一人の検索
正)特定の検索ワードA1と同じ検索を行った全ユーザーの検索 >>584
その概念面白いな。同時検索ログを使ってダミー変数にLLEみたいなことしたら面白そうだな。 > また「ログから同時検索される確率を類似度として用いる」というのは、具体的にどのような処理が想定されますでしょうか?
アソシエーション分析のsupport値かと。 >>583
>色だと光の周波数に数値化できる
色は周波数とは関係ない
よって色は、周波数を使用して数値化できない
色は、眼球中の網膜に分布する三種類の錐体細胞 S, M, L の刺激の度合いで決まる
すなわち「色」は感覚であり「色覚」というべき、よって色の数値化の理論は私には難解に感じます、グラスマン(1809-1877,プロイセン)という数学者にして印欧語族論者を思い出します 光は電磁波という物理現象で、その周波数で異なる色に見えるのをご存知ない? >>589
その受容細胞が反応する周波数に違いがある >>589
ペダンチックに振る舞ってたのに失敗してて草 単純に色を数値化しても意味ない
色の好感度みたいなものを量る方法を
思いつくと役に立つ 色とイメージの関係は文化的、慣習的なもの
国とか地域で違うのは心理学で研究されている >>590-591
周波数成分の異なった光が同じ色に知覚されることは十分にありうることは、どう説明しますか? >>596
知覚を対象にするなら目の見えない人や色弱や色盲の人もいる
周波数や波長を色の距離として採用する事も可能と言うだけで必ずその尺度を採用するべきとは書いていない
色から受けるイメージとかは文化や風習で変わると書いている
人の意見を正しく読み取った方が良い BERTの埋め込み表現の各次元って何を表しているんですか? >>596
違う色だが同じ周波数にエイリアスする色が存在しても、色と周波数が関係ない事にはならないが
関係ないとしたら波長400nmの電磁波が紫に見え、波長が伸びると青、緑、黄色、赤と変化してゆく事実は何?
全単射でなければ数値化出来ない訳はない もう負けだよ諦めろw
色に周波数がないとか馬鹿にもほどがある 心理量と物理量の違い
音もピッチは心理量で周波数は物理量
何を研究対象とするかでどちらを採用するのが妥当か変わる 時間も心理量と物理量で違うこともある
退屈な時間は心理的には長く感じるけど物理的には等しい
相対論だと観測する人によって物理量も変わるけど
心理量を時、物理量を時間と区別する人もいる >>598
分からない
色々観測して推測はできる。。。 >>598
BERTに限らず埋め込み表現の各次元の意味を人が理解するのは基本的に無理 >>596
> 周波数成分の異なった光が同じ色に知覚される
可視光でそんなことがあり得るんですか?
具体的にどんな時に起きるんですか? >>578,579,580,582,584
THX!!!
めっちゃ参考になりました! >>605
赤色光と緑色光を混ぜたら黄色に知覚されるとか 人間にとっての色はLMS錐体の刺激値であるというのは間違いない。
それを単一の波長で表せるかというと表せない。
白とか、赤紫とか、原理的に複数の波長の混合でしか表せないものがある。
普通の人間の色覚を数値化する場合は3次元のLMSの刺激値で十分で、特殊な場合(光学シミュレーションしたいとか、4錐体2錐体の生物も扱いたいとか)はもっと多次元のスペクトル分布を扱う必要がある。
でも可視光の波長に色がついていないわけではない。(波長からLMS錐体の刺激値への写像が存在する) >>608
ある波長、周波数の光に対して
各受容体の反応のレベルが変わるだけ
各受容体の反応の仕方は個人差がある
ある人は赤の波長に強めに反応するとか >>608
何を対象とするかで変わると何回も言っているだろう
動物や昆虫の視覚を対象としたら人間の可視光の波長だけではカバーできない
その場合も物理量である波長や周波数は使える概念 >>608
世の中には4錐体の人も結構いるらしく、その人のために32bit ビットマップRGBAがあるんだと、長い間信じていました シャコさんをおもいだした>色覚
2色覚の人間はけこういぱいいる
4色の人はウルトラレア >>609-610
だからそう言ってるじゃんか、
スペクトル分布からLMS刺激への写像だと
3DCGのレンダラーでRGBじゃなくてスペクトル分布で色を計算するものがあるんだけど(OctaneとかSpectral Cyclesとか)
極端なケースだとその方式の方がリアルに見えるね 受容体って言いたいだけじゃ
cmosセンサも同じようなものだけど もともとの話の色の距離ってことならCIEのL*a*b*で測るのが定番だろうな。 >>614
スペクトル分解しなくても光として存在するし波長とか周波数とかの物理量も測定できるんじゃね?
何を対象とするかで変わる
錯覚とかを研究するなら同じ物理量の光で
見る人がその前に違う光を長時間見続けていたとか
隣接して別の波長の光の有無とかの影響を受ける
そうなると受容体だけではなくて脳内の色の認識処理も関わる事になる ニンジンが赤いのはβカロチンだが
βカロチンは赤以外を吸収する
植物の葉が緑なのは葉自身が緑以外を吸収してるから >>617
一点だけ聞きたいのだが、白色光の波長はいくつなの? >>619
白とか黒は明度で色とは違う概念
色相環とは別に明度がある >>622
この質問がggrksだと思ってるのなら、あなたは可視光についてほとんど何も理解していないと言っていい。 >>623
あなたはいったい何を理解されてるのでしょうか? っていうか理解してるのならとっととそれ使って作りたいもの作ればいいのに何を無駄話してるんだろう データマイニングにRGBは関係なくて
自動車の自動運転ではRGBをAIで分析する
思い違いがあるのでは >>625
https://polyhedra.cocolog-nifty.com/blog/2014/06/post-5597.html
これでいい?
光として存在してる(見える)ことと、単波長の電磁波であるということはなんの関係もないという話。
基本的にはその辺の光はスペクトル分布でしか測定できないのよ。色覚においては、そのスペクトル分布を3次元に写像したLMS刺激値か。 >>629
そのサイトは光の周波数が連続で無限にあって
デジタルみたいに量子化されていないと言っているだけ
周波数は連続しているからその連続した値と人間の色の区別の対応関係が無いだけ
新しい色の名前を作ればもっと細かくなる
色の分け方も文化による
何度も言っているけど何を対象とするかで変わる
人間の色の認知だったら受容体だけではなくて脳の色の認識とか色覚異常とかもある >>630
赤紫とか、白とかっていう光は、人間の色覚のなかにだけ存在して(LMSの3次元の値)、
単一波長(スカラー値)のスペクトルの光としては存在しないのよ。
複数の波長の光子が飛んでくるから赤紫とか白は人間の知覚できる色(?)として存在する。
だから、光が存在して見えるから波長とかの物理量が単独の値として測れるというのは勘違いなんだよ。
同じ色を見続けると色が見えなくなってしまう、とかいう話は確かにあるけど、それ以前の問題として、スペクトルと色の関係わかってますか、という話。
色相環とスペクトルは、本質的にはあまり関係ない。 >>631
人間の視覚細胞の特性は光の周波数によって違うんじゃね?
SMLとかの種類は周波数によって反応が違う
それぞれの反応レベルに応じて認識する色が違う
赤紫色だと認識する光の波長がある 認識を共有する必要はないから
あなたはあなたの認識のままで私は困る事はない
私も私の認識のままで良いです
あなたが困る事はないでしょう
このまま時間を無駄にする事の方が困る ID真っ赤になるまでグチャグチャ言っておいて時間の無駄は草 何も考えずにラベルだけ付けて置けば学習するのが機械学習の基本。
波長だ何だと物理特性にこだわるのは邪道 そんなやり方じゃ限界くるのは明白だから構造をつけましょうというのが
今のアカデミアの最先端課題なんだが >>632
いや、赤紫だけはないんだよ。波長の長い赤と、波長の短い紫を混ぜないと作れない。
白も同様に色んな波長を混ぜないと作れない。
ホワイトノイズっていうだろ。色んな波長の信号がホワイトノイズに入っていることを白色光に見立ててホワイトノイズという名前が付いてる。 色をスペクトルで入れればいいじゃん
もうスペクトル画像でもいいぞ 生物学と画像処理が混ざって草。
前者なら機械学習関係ないし。 最初に答えた人も誰も色は単一周波数で表現できるなんてなんて言ってないのにね
色を周波数(波長)で表現可能って答えてるだけでさ >>637
機械学習はデータ突っ込めばとにかく学習してくれる魔法の箱じゃないんだから
ドメイン知識に基づいた特徴設計はとても重要 ドメイン知識要らねえってのが最近の流行りじゃねえの?
AlphaZeroみたいな この現象はこうだ
とか断言したって実際の自然現象と一致してる保証なんてないからな
思い込みの激しい人は断言するけど
実験したり観測したりして検証しないとただの仮説
そいつがそう思うってだけのこと 虹に赤紫が無いのは判ったけど
色相環で言うとH=0-290あたりまでが虹?
290-360が無いってこと? >>643
最初に答えた人はどうか知らんが、>>617ではスペクトル分布なんか考える必要なく単一の波長を測定できるようなニュアンスのことを言っていたので突っ込んだだけ Outlier(外れ値)推定って、どの程度まで精度を上げられるもん?
ランク学習が効果的という断片的すぎる情報を聞いたけど、どう応用すればいいか解らん >>649
まずは外れ値の定義を決めた方がよさそう。
どんな問題を扱ってるの? 明日からはSSII2021ですね
最近の学会はオンラインだから楽だけど出張なくてつまらない >>632
>赤紫色だと認識する光の波長がある
ない
あるというのなら、その周波数または波長を示せ アップデートできないんだから何言っても無駄
バカの壁を崩せない又は洗脳されていて抜け出せない状態 >>654-655
調べたことが正しそうかどうかを別のソースでチェックする癖はつけたほうがいいよ。
https://en.m.wikipedia.org/wiki/Visible_spectrum
516nmって緑あたりの波長だよ
てかさ、深層機械学習がいかに強力なツールであろうとも、物理的事実はひっくり返らないから。 光なんだから波長も周波数もあるに決まっている
合成しようと波であることに変わりはない レーザーのような、単一スペクトル光には波長も周波数もあるのはその通り。
赤紫や白のような、複数の波長の光の波を合成して出来た波は、確かに波だが、こういう波の波長や周波数を表すときは、波長分布(スペクトル分布)、周波数分布で表す。
合成したからといって一つの波長を持つようにはならないよ。
つまり、単一スペクトル光でない光を波長で表すのは無理。(分布にしないとだめ)
なる、出来るというのなら、100nmと1000nmの光とか、400nmと700nmの光を1:1で混ぜたときに波長いくつになるのか具体的に教えてくれるかな。 与えられたデータをどう加工するかは自由だから自分の思うようにやってくれ
なのでこのつまらない話題そろそろ終わりにしてくれる? wake-sleepアルゴリズムの日本語訳語ってなに? >>665
んなわけあるかい
明治文壇の同人誌会派じゃあるまいしw
バズらせたもん勝ち >>659
質問に返答しないで「しつこい」はアカデミアとしてダサいと思わないの? >>669
元々人間の色の好みをどのように取り扱うかという話だったように記憶しているので、
人間にとって不自然な光の波長という概念を持ち出すのは筋悪じゃないか?という話をしている。
人間には光の波長はわからなくて、LMSの刺激値しかわからないのだから。CIE LabもXYZもRGBもその線形変換なんだから、その辺の値を使うのが入力おしては本質的だよ。
HSVとかですら、余計な前処理が入ってる可能性がある。全単射とはいえ、全く線形ではないし。 いつもの人と違う感じか?
そんなに何人も異常者がいるとは思えんのだが 波長で判断するのが不適当だと思うなら勝手にそうすればいいだけ
別にこのスレで許可を得る必要なんてない HSV は全単射ではないのではないのですか?
>>673
少なくとも >>670 さんはいつもの人だと思います
あと5chに来てる人の母集団の特性としては健常者の方が圧倒的に少ないと思います 書籍「Kaggleで勝つデータ分析の技術」の内容について教えてください。
この書籍のサンプルコード内のコメントについてです。
・第4章「分析コンペ用のクラスやフォルダの構成」サンプルコード
https://github.com/ghmagazine/kagglebook/blob/master/ch04-model-interface/code/runner.py
・183行目のコメント抜粋
「# 毎回train.csvを読み込むのは効率が悪いため、データに応じて適宜対応するのが望ましい(他メソッドも同様)」
「効率が悪い」というのは、速度の遅さだと思うのですが、
「データに応じて適宜対応」とは、具体的にどんな対応があるのでしょうか?
CSVからデータベース(mysql)などに移しておく?くらいしか思いつかないもので・・・。
もしお分かりになる方見えましたらお願いいたします。 >>677
毎回読み込むのが効率悪いって意味かと
読み込む必要がないデータは読み込まなくて済む
データを読み込んだ後で変更やデータクリアとかしてなければ再利用できるのでは? return pd.read_csv('../input/train.csv')[self.features]
の代わりに
self.xtrain= pd.read_csv('../input/train.csv')[self.features]
するとか >>677
単純にクロスバリデーションの度に読み込み処理が入ってるからって事でしょ。
メモリ上に保持しとけばいいんじゃないの kaggleってどれだけ実践的かな
インターンの子にやらせるにしては簡単? インターンにKaggleをやらせる意味がわからん
ネットで悪評書かれそう >>682
短期間で目に見える成果を期待できそうな課題、を考えるのって難しくない? 大学の講義でSignate使ったことあるしコンペはインターンにちょうど良さそう >>684
バイトにさせたい仕事もないんだよね
うちに来るのが間違ってるのかも それならインターン生に何したいのか聞いてそれっぽいことさせてやれば満足して帰るでしょ >>678,679,680
ありがとうございました!
ご指摘の通り、サンプルコードではクロスバリデーションのフォルダごとにCSVを再読み込みしていました。 >>687
Kaggleは自宅でもできるからなぁ
せっかくだから泥臭いデータ抽出とか体験してもらえば? 普段から業務時間の一部を使ってコンペやってるような企業が社員と組ませてコンペやるなら意味あるかもしれないけど
そうでないならインターンでやることか?と思ってしまう バイトにはクソ汚い前処理をやらせるのがいい
SQLとかデータベースとかまともに勉強してないだろうから
その辺の処理が1番良いと思うね
まずはSQLですよ この業界でバイトにできる仕事ってあるのかな?
タグ付けぐらいかと思うけど >>696
モデル作成はできる学生いくらでもいるから十分バイトでいけるよ
実際うちの会社でも学生バイトに投げたことある
むしろ抽出や前処理のほうが社内システムやドメイン知識が必要で難しいんじゃないかな 多次元データをクラスタリングするとき脳死でtSNEしてDBSCANしてるんだけど他にオススメないですか 可視化するために使われる事が多いのであって
次元削減したら逆に適切な分類が難しくなるんじゃね?
分類するための重要な次元の値が次元削減で他と混在して分類に使えなくなる 可視化以外に解釈にも使うからなぁ
人間が解釈しやすいカテゴリ分けができるくらいまで次元数落とすのが理想かな?
どんな変数が潜在しているかアタリをつけるのが腕でもある >>701
自分は解釈しやすくするのは広い意味での可視化、見える化だと思う
可視化という言葉の解釈しだい 今更ながら青木先生の統計学サイトのPythonライブラリで遊び始めた
とりあえず全機能動かすか 【新音声入手】親密企業の参入を指示 平井卓也デジタル相に官製談合防止法違反の疑い 週刊文春 [孤高の旅人★]
ttps://asahi.5ch.net/test/read.cgi/newsplus/1623831843/
松尾豊? 青木氏のサイトのPythonコードはとりあえず200くらい紹介されてたものを動かして使用例なんかも見たが
「じゃあすぐこのデータにふさわしい統計指標を算出出して」っていわれると現状では
30分以内に解決できない理解度だなあ
3時間なら選び出せるか
慣れるのに数ヶ月掛かるな >>714
松尾某と同じく業績はともかくメディア対応が上手いのかな 福島邦彦の記念講演やってる
nhk前所長の発表、聞き取りづらい
モソモソ言ってて分からん アカデミアと縁ないとこにいるくせに表彰の類に物申したがるの良くないよ これ論文なのん?って印象だったからどうなのかなって deeplに遊戯王カードのテキスト読み込ませたらなんか全体的に遊戯王調の翻訳になってしまった
クセの強いデータが混じると全体の精度が落ちるな
クセの強いデータを除外するAIを開発しないと 三宅 陽一郎という名前は、どこかで見たと思ったけど、
マイケル・ディックハイザー「ゲームプログラマのためのC++」2011 の監修か ゲームのAIってはっきり言って今言われてるAIとは別物
どちらかと言うと古典的なものだよ で、非エンジニアや非研究者が思い描く (SFで描かれる) AI は更にまた別物っていう 思考をプログラムで実現することで
記憶、比較、試行、検索、情報処理
こういう多岐にわたるものだから
違うものとは思わない
なんとかAIという表現で区別してるけども プログラム=論理的
AI=抽象的
と定義できるけど、抽象表現も細分化すればブール論理×確率で表すことが出来てしまう AIは人工知能で定義が広いからなんでもAIと言えてしまう
人が作った知的な操作とかをするものだったらなんでも当てはまる
知的の程度は色々あるけどその辺は決まってないだろう あたしゃ認めないよ
ゲームに実装されてる奴はaiでもなんでもない 一般人の思うAIってあれでしょ
脳ミソのマークに点とノードが描かれてるよくあるあのイラストの感じでしょ知らんけど GitHubにソースコードの「続き」を自動で補完する機能「GitHub Copilot」が登場
OpenAIとAzureの協力により実現
https://gigazine.net/news/20210630-github-copilot/
きたぞ 人間の脳に未知のシグナル送信経路があることが判明 https://karapaia.com/archives/52303631.html
本当かどうか分からんけどちょっと面白い
バックプロパゲーションじゃない方法も出てきてnnはまだ進歩するかな 全ての論文、プレプリントに目を通してるかのような口ぶりはやめてくれ
会社またはMITまたは東工大または東大に所属する3人の著者が日本人を含まないという極めて普通の状態がさも特殊であるかのように語るのをやめてくれ
中身に触れずに「面白い」と言うのは何も語ってないに等しいと気付け
アカデミアに縁ないんやなあって ヒーローアカデミアに縁があるのか、サイン貰ってくれ arxivのPDFに直リン張る奴とは仲良くなれない 私は、MBAを取るために、ハワイにある伝統的なビジネススクールに通っていたとき、どこかの大企業で
働く中間管理職が教えるマネジメント「論」や経済「論」を学ぼうとしている自分に気付いた。
ビジネス経験のない先生は、学校制度の外に一度も出たことがない人だ。
つまり彼は、5歳で幼稚園に入ってからずっと学校制度の中にいるにもかかわらず、学生たちに実社会に
ついて教えようとしていることだ。とんだお笑い草だと思った。
講師陣や中間管理職や教師のほとんどは、ゼロからビジネスを立ち上げるのに何が必要なのかについては何も知らなかった。
ロバートキヨサキ「人助けが好きなあなたに贈る金持ち父さんのビジネススクール」P62〜63 bert本のイベント見たら自分の提案手法じゃなくて応用をやってるだけなのに仲間内で誉めあってて日本のアカデミアは駄目だと思った
福島先生やら甘利先生みたいなのはもう出てこないのか 機械学習分野を本気で極めたい人は大学などに残らずとっとと大手グローバル企業に行く
その方が金もデータも桁違いだから
そういう所に行けなかった人が仕方なく大学に残っている印象 >>759
「グローバル企業」とやらが出した論文でやってみた系じゃないものってあるの?
新手法を作ってるのも物理の言葉でMLを説明してるのもアカデミアじゃん アカデミアとやらがはしゃいでるBERTはGoogleが作ったんでしょ >>761
トップカンファレンスの論文に少しでも目を通したことがあればそんな見解にはならないはずだが まあ日本の学会は全部しょーもないよ
俺もだしたことあるけど
なんか自分の専門分野以外はよくわからないし
興味も持たれない感じ
かと言って商業寄りの話はスルーされる感じ >>761
日本のアカデミアはなんにも証明してないぞ
やってみた系ばかり 日本のアカデミアは逆に数理的な論理だけで実際のアルゴリズムとあまりに乖離した理論だけのものが多いわ。
PFNの Spectral Normalization はそういう意味じゃ相当例外的な結果だと思う。 今さらかもしれんが、BERTの事前訓練てみんな何GBくらいの日本語データでやってるの? >>767
統計数理なんとかや情報学なんとかは理論が多いイメージ scikit-learnをproductionレベルで使う人はいるの? >>775
そんなことないんだよ
でもまぁ、名前がね machine learningの "learn" じゃないの?
ロジスティック回帰みたいな簡単なモデルで済ませるときは便利よね Pipelineなんかもscikit-learnが標準となっているし
実務では利用するんだけど
最近は代替品で便利なものがいろいろあるので、使い所さんが減ってるね 最近は個別のライブラリを使うことが増えた気がするな
汎用的でなんでもできるライブラリはどうしても使いにくくなりがち g検定の教科書って無料のやつ無いの?
テキストなんだからそれくらい無料で公開してくれていいじゃん チューリングテストの反論としての中国語の部屋って難癖だよな
知的なタスクに心や意識は必須じゃないだろ
ずれてんだよ
ジョンサール調べたらセクハラ爺でバークリー追放されてて草 >>787
私に心があるかどうかを(他人ではなく)私自身が知る方法はありますか? 心を定義して、その定義に当てはまったらあるとわかる >>788
こいつC++スレとか鍵盤楽器板荒らしてる固定ハンドルだよ
あえてコテ外して書き込んだりしてる悪質な荒らし
しかもここに来てRoninで書き込んでるの確定か
スルー推奨 うちのAIによると
心というのは
観測できた事象から導出した関数では計算できない特異点であるとのことです >>792
なぜローニンにで書き込んだら駄目なんですか?
あと荒らしではなく話題提供といってほしいですね‥‥
>>791
最近そんな気がしてきました‥‥ ai人材が足らないってウソだと思う
逼迫してるなら無料でテキスト公開したり講義をyoutubeで流したりすりゃ独学できるし資格が欲しい人だけ試験を有料で受ければいい
この資格を持った人材が欲しいわけでもないんだろうな
人材が多く欲しいんなら独学しやすい環境を整えればいいのにそうしてないし
結局資格ビジネスか >>796
「〇〇講座で勉強して月〇〇万円稼ぐことが出来ました」って言う
CMも結局そのCMのview数で稼いでるんだろ?確か
そうやって稼ぐことを勧められるとかで AIブームが来た時
機械学習の勉強するのにそれなりの値段のGPUを買っただろ?
そこで機械学習の勉強をしたのがそもそもの間違いで
すぐ諦めてマイニングをしないといけなかったんだな
そこが吸われる人と吸われない人の差で
真面目な人は結局吸われる道に行ってしまうんだな >>800
ドキュメントが増えて、コミュニティが成熟したら(というかこれで実装されたNNフレームワークで書かれたモデルが増えてきたら)流行るだろうね。それを使わざるを得なくなるし
今のPythonでは限界はきてるし、CUDAで書くのも難しいから、なにかブレークスルーは欲しかった >>800
tritonの下側でcudaが動いてんの?
流行んないんじゃない? Pytorchでモデルを実装してCUDAは利用するけど、
CUDAの動作について特別なことはしたことない
既存のフレームワークを使ってない人用? >>804
pythonの開発団体に寄付もしないのに金儲けばっか >>799
勉強にGPUは必須じゃなかったので、そこから間違ってる
もっとも、マイニングしなくとも転売すれば8割方戻ってくるけど aiの人材は足りないと思うよ
ただちょっと勉強をした人とが欲しいんじゃなくて
問題の構造を考えて、チューニングまできちっとできる人が欲しい
そんだけ能力がある人はそうそういない
資格で保障される能力よりもはるか先の能力が要求される そんな能力を持っている人かどうかを誰がどうやって判断できるのか
どうやったらその能力を得られるのか
能力を持つ人がAI関係で仕事するより他の仕事の方に魅力を感じるかもしれないし だいぶ敷居が下がったから論文のモデルを実装して実データに適用する程度ならAI専門家じゃなくてもできるしね。
自分の部署だと普段物理シミュレーションメインにやってるような人らが、実験データやシミュレーションデータに対して機械学習適用して解析したりしてるわ。 >>809
判断できる人が面接をしないとそのプロジェクトはうまくいかないことは明白 >>811
で、どうやったら適切に判断できるのかは判らないと
上手く行ったプロジェクトと失敗プロジェクトでどんな人がいたらどうなるのかをAIで分析したら良いんじゃね?
それもできない人がこんな人材が良いとか言っても説得力はない 先行事例でうまくいったパターンをなぞるのであれば
成功する確率も高いけど(それでもノウハウとか制約とかいろいろある)
未知の分野で試すのはそもそも挑戦的だからなあ 前例主義、失敗しない方法を追求する旧来の日本的思考だとうまくいかないだろうね >>796
「〜人材が足りない」ていうのは日本では「(安く使える)〜人材が足りない」て意味だぞ GAFA3社が採用内定の理系日本人へ「年収6000万円」のオファー、「AI人材の争奪戦」 | AVILEN AI Trend
新卒で年収3000万円も!激化する高度人材争奪戦 | 就活最前線 | ダイヤモンド・オンライン
富士通「年収3500万円」の衝撃 ソニー、NECも戦々恐々の「グローバル採用競争」 - ITmedia ビジネスオンライン 「新卒でも年収1000万円可!」とか言われても、
既存社員の年収データ見せてもらわないと信用できないよね 新卒でも年収1000万円可=できるやつには金をやる。できないやつはクビ。 できない奴がクビになるのは極めて健全な組織だと思う できる人に多く払うのは健全
と同時にそれほどでもない人にもほどほど払い
できない人に会社のできる範囲で最低額払うのも健全だと思う
だから大企業こそできない人を多く雇うべきかと 大企業も近頃(っていうかバブル崩壊以降)経営が苦しいので
余計な人は切りたいのですよ それほどでもない人は派遣で事足りるのでわざわざ直接雇用する必要性がない >>822
そういえば今
大卒、院卒で都心1人暮らしで派遣やってる人っているの?
吸われまくりじゃないか
ホリエモンやらひろゆきやらが固定費高いところに住んでいる奴は馬鹿だとか
田舎に行った方が給料安くてもゆとりが出来る
どうせ家に帰ってもやるのはゲーム、映画、youtubeでしょ
とか言いまくってるけど optimizerって色々あるけど
時間か許せるならsgdで十分? https://arxiv.org/pdf/2105.04339.pdf
sentence-roberta-largeの結果を出してなくて草
たぶん差がでなかったんだろうな 脳死adamが強すぎてsgdは勉強しているときにお世話になった程度だな
ちなみにadamの計算まったくわからん! 動画像の過去の数フレームを使って将来のフレームを予測するみたいな研究でうまくいってるやつってないのかね adamでうまくいったとか過学習ぽくて実際に使うのは不安残るわ >>833
うまく行ってるの基準が分からんが、研究はあるでしょ
>>834
adamは収束速くなるだけじゃないの? >>835
そんな単純ではない。deepの汎化性能がどこから来るかはいまだに謎。
learning rateだけでも何がいいか結論出てないが変に速い収束が問題視されてるのは事実。 >>836
多様体の変な極小点にハマりやすいかもしれない、ってことかな?
ユークリッド空間に埋め込んだときに何百万次元にもなってしまう多様体の形を求めるってのは普通に簡単じゃない感じするもんなあ。 >>833
深層強化学習がまさにそれでしょ
ゲームの自動攻略とか >>837
それってディープラーニングというより最適化問題? >>837
それもあるし、
そもそもトレーニングデータにおける最適解が汎化性能が高いかどうかもわかってない。 >>840
ディープラーニングは最適化問題とかぶる部分かなりあるでしょ >>839
質問が漠然としすぎていて、何をもってあるといえるのかわからないが、
スイスロールデータセットの次元圧縮がうまくできるように工夫しているアルゴリズムは多様体らしいアルゴリズムじゃないかね? >>843
この質問は多様体上で解いてる前提でしょ、だから聞いてみた
>多様体の変な極小点にハマりやすいかもしれない、ってことかな? >>839
次元圧縮は多様体仮説の上で成り立っている >>844
多様体の形を推定することも、多様体の形を決めるパラメータ群を多様体としてとらえれば多様体上の最適化問題になると言う意味ね それでも精度に有意差がつかない機械学習コンペティションに躍起になる香具師よりまし 曲面しか扱っていないのに多様体といったら話盛ってるだろうw 君たち「多様体の基礎」ぐらい読んでから喋ってる?
俺は教科書指定されたけど挫折した 「多様体の基礎」でわからなきゃもう無理だろ。
でも実際はテンソルの変換の計算するだけだから多様体を考える必要はほとんどないけど。 二次元で理解して
それが高次元になっているのね
という理解で十分 >>858
その理解だと関係式になってない関数は多様体で取り扱えなくなってしまうのでは?
関係式の例として単位円の方程式、x^2+y^2=1はxが定まればyも即座に定まるからその理解でもいいけど、
関係式ではない正規分布の母数のように平均が定まっても標準偏差は即座に定まらないから、統計多様体で矛盾が生じてしまう
やっぱりちゃんと多様体を理解した方がいいと思うよ
ただし、自民党政権下ではどんなに数学頑張っても無駄だと思う
法人税の特別減税措置を大量に作って大手ばかり優遇し、富の再分配と真逆の行いをしてビジネスの世界から本質が消えてしまった
内部留保ばかり増えて労働者の平均賃金も長年上がってない
労働者は共に現政権にNOを突きつけ、IT業界に蔓延する「今だけ、金だけ、自分だけ」の考え方を変え、本質を取り戻そう!
数学の勉強はその後、皆んなで一緒にすればいい 2次元多様体は3次元で見ると曲面になるから
n次元多様体はn+1次元でみたら曲面になるんじゃね?
その曲面上で損失が最小になる点を見つけるのが学習だと思うけどな >>855
流石に読んでるぞ
てか読まなきゃ多様体が何だかわかんないじゃん 最近多様体のお勉強でもして、お話ししたくなったのかな? 実務未経験、kaggle初挑戦でソロゴールド取れたけど転職活動で評価されますかね
kaggleやる前は経験がないという理由でさんざん落とされまくった
masterまで取ってしまった方が評価高まるんかな
grandmasterまで取れたら引く手あまた? 実務はkaggleみたいに整備された環境ではないのでkaggle実績など実務経験としてカウントされません
実務でデータサイエンスやっている人が転職時にアピールポイントとして使うならまだ分かる >>868
DeNAがkaggle経験重視してるから受けてみたら? Kagglewwwwwwwww
競プロer笑と同レベルって気付け >>868
今の会社でデータ分析の部署に転属させてもらうか、プロジェクトに参加させてもらったら?
部長クラスに相談すれば悪いようにはならないかと。 >>868
数多ではないだろうがある程度評価はされると思うからそのままグラマスまでやれ 転職サイトでkaggleで検索すると何件かヒットするよ ありがとう
データ分析の職種もいろいろあるね
研究開発もあればコンサルもあったり、データの活用方法の立案から任せたいところもあれば、データを集めるところからやらせたいところもある
この違いのせいで人によって言うことが全然違うというのは面接でも経験した
kaggleのような精度出しを重視するのは研究開発なのかな
grandmasterまでは少し時間かかりそうだから考えてしまう
ソロ金取れたからあとはチーム組みまくればさくっと取れるのかもしれないけど >>873
今の会社のデータ分析やってる部署は機械学習の仕事は2割しかないらしい
古典的な統計手法がほとんどなんだとか
試しに社内公募で面接受けてみたら機械学習についてまったく質問されなかったから辞退した
業界はAIを活用し始めてるし会社もビッグデータを持ってるんだけど、そこの部長が機械学習に疎いようだから社外に出た方がよいと判断した >>877
まずはその部署で実務経験を積めばよかったのに。
機械学習プロジェクトでも古典的な統計手法は使うよ。 俺もそう思う
データサイエンスなんて実際は本当に泥くさい仕事だよ >>879
いやまあそれだけじゃなくてあの部長とは反りが合わないと思った。
面接でケーススタディやらされたんだけど、こっちの解答が不正解で扱われたから模範解答を聞いてみて、
その模範解答間違ってるよと間違ってる理由を言ったら、間違ってないの一点張りで、根拠を聞いても今後の採用でも同じ問題使うから答えられないと。
いや出題ミス隠蔽のうえに間違った問題を使い続けるって…
人事に話したが俺の言い分は正しいように思うが人事は試験問題には立ち入れないんだと。何のための人事なんだか。
とりあえずこの人の下では働きたくないと思った。
今の仕事も統計関連ではあるから古典的な分析手法を異動してまで経験する必要はないかな。 >>880
どの仕事もそうだね。今の仕事もそうだから想像はつく。 >>868
kaggleのことよく知らないんだけどソロゴールドってどういう状態なの? 機械学習だけでなく古典的統計もちゃんとわかってる方が価値あると思うなぁ 全く違う
そもそも古典的統計なんて言葉ほとんどつかわない この発想はないわ、経済屋さんか?
>古典的統計って、計量経済のこと? 計量経済という言葉自体経済をかじってないとしらないだろ 古典的統計って単語でt値とかp値とか連想して質問してみました p値や帰無仮説の類いは、統計分析で使われているが、本来は検定では?
古典的統計って、古典的統計分析の省略形? そうなんです、私は仮説検定で育ってきて最近機械学習を勉強し始めたところで、二つの世界観の違いに少なからず戸惑っておりまして、漠然とした質問を投げて、何かヒントを頂けたらと思った次第です 機械学習でinsightを得て、統計的検定で確認するもんじゃろ
どこの現場もそうやっとるじゃろ? 古典的というのは別に用語ってわけでなくて比較的最近流行の的になっている機械学習以外の昔ながらのデータ分析手法という意味で言ったつもり。
セグメンテーションとか主成分分析とかいろいろあると思うけどデータ分析業界でどういう言葉が使われてるのか分からないので深く突っ込まず察してほしい。
ところでスレ違い申し訳ないけどひとつお聞きしたい。
皆さんとこのデータサイエンティストの女性率は何割くらいだろう?
うちの会社のその部署は部長(男)の下に4人の女性と3人の男性が所属していて、それぞれデータサイエンティストまたはデータエンジニアの肩書きが付いている。
しかしこの仕事を志望する人の大半は男性だと思う。ネットで調べても9割は男性だと出る。
意図的に女性を優遇して採用しない限り部署の過半数が女性になることは考えにくいと思うのだけど、この感覚は皆さんも一緒だろうか?
その部長はデータ分析部署立ち上げ当初から採用に関わっているらしい。
なんだかものすごく気持ち悪く感じた。合理的理由なく女性優遇してるとしたら法律違反でもある。 女性の割合をクォータ制とかで割合を決めたりするところもあるから違法とは言えないんじゃね?
海外では国会議員の割合とか会社役員の割合とかクォータ制導入してるとこもあるだろうし
人事のことは会社の人事権限を持つ人が決めることで
成果の責任を取るのも責任者になるはず
何故かそうならないこともあるけどな
自分のやりたいことをしたいのなら出世するか独立したら良い >>877
某メーカーの中で少し働いたことがあるがコテコテの統計学だったよ
それこそt検定とかF検定
しかも秘伝のタレと化した自前Fortranのライブラリを使わなきゃダメだった >>897
>しかしこの仕事を志望する人の大半は男性だと思う。ネットで調べても9割は男性だと出る。
そりゃ現状大半が男性で構成される環境を志望する女性はレアなんだから仕方ないだろう >>901
秘伝のタレは継ぎ足していくもの。
改良されない数値計算ライブラリは、秘伝のタレではなく単なる化石? >>903
社内の業務フローに組み込まれてるだろうから変えられないんだと思う
製品開発に直結するからね >>904
並行して別のシステムを作っていけば
出来上がってから切り替えられるし
品質管理なら適用する製品を選べば良いように思う
例えば新製品は新システムで品質管理するとか > お前は毎朝起きるたびに俺に負けたことを思い出すよ^^
あー、ホンッとに思い出すなあ(笑)
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い!」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君!
クソチョンw まあ実際の仕事はkaggleで高得点出すことじゃなくて
kaggleがコンテストするためにやってるように、データ整備やコンテスト形式を整備する部分なんだよね。 rnnを試してるけど学習が安定しない
想定どおりに学習できることもあるしできないこともある
こんな感じだっけ? >>909
(o´・ω・`o)何が良くないんだろう うちは女性も多いってレスが無いところからするとやはり普通は男性が多そうだね。
転職活動してても女性は一人しか見たことがない。
>>899
人事に聞いた限りじゃそういうのはなさそう。今回の公募は応募者全員が男性だったそうな。
今回結局誰か採用したのかどうか結果は知らんが。
>>902
というより工学、数理、ITって一般的に女性より男性の方が得意だからというのが大きいと思う。
生物系以外の理系職はどれも男性が多いね。
>>907
いろんな会社に話を聞くと会社によってだいぶ違う気がする。
データ整備と分析で人員を分けていたり。
扱うデータの種類でも違うんじゃないだろうか。
例えば画像解析だと認識精度が重要である一方で精度を出せるスキルのある人は限られてそうで、
データ整備よりも精度を上げる仕事が重要になるんじゃないかと想像してる。
自動運転の研究なんかは日々精度を上げるための研究をしてるイメージ。知らんけど。
kaggleはホスト企業が精度を上げるアイデアをコンペを通して募集する場だね。企業からすればある種のクラウドソーシングでしょう。
だから入賞者には企業からそれなりの報酬が払われ、報酬を得るにはソリューションの説明が義務付けられてる。 nnで遊んでてどテンソルの次元が分からなくなることがあるんだけど皆さんそう言う苦労感じることはないの? kerasだと間違わないけど生のtensorflowだとやらかし易いのかな テンソルの次元を型として扱ってほしい時はあるよね
pythonだと型がふにゃふにゃだから仕方ないが pytorch使ってるけど
fcに繋げるときに次元計算するの大変 テンソルといえば、Python (つーかNumpy) の多次元配列が使いやすい上に速過ぎる
まあNumpyの線形代数ライブラリがC++とかでビルドされてるってだけだが、それにしても速い
問題が全部線形代数の言葉で記述される限りは、並のプログラマC++とかFortranでコード書くメリットほぼないね NumPyは生のCPythonでの演算に比べて高速だけど、それでもボトルネックになり得るから、精度は落ちるがPyTorchのテンソルでGPUに計算させるね
CuPyというものも一応あるが CPUよりGPUの方が速いっていうのはそりゃそうだろとしか
>>925とはレイヤの違う話 > お前は毎朝起きるたびに俺に負けたことを思い出すよ^^
あー、ホンッとに思い出すなあ(笑)
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い!」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君!
クソチョンw cupyはサイズが小さいテンソルだとcpuより遅いみたいだけど 方策勾配法で学習させたら累積報酬が伸びなくなったんだけどどうしたらいい?
https://i.imgur.com/JburTbf.jpg >>930
状態の保持が間違っていたりする?
変な曲線になるんだよね。 >>931
ありがとう角度を三角関数で分解したり無理矢理スケーリングしたらなんとか学習進んでそうな感じする Rustのメモリ安全性はボローチェッカーによって担保されているが、
Nimと比較してRustはタイプ量が多い事により限りなく低い生産性と
C++のような高い難読性、超巨大なバイナリ生成性能を兼ね備えています
Nimはバージョン1.5.1でRustのボローチェッカーに似た「View types」が実装されれば、
GC無しのView typesで参照の有効性を検証することによってメモリ安全性を保証しつつ
限りなく抑え込まれたタイプ量で高速化したCのソースコードを吐き出せます
Nimソースコード ==nimコンパイラ==> Cソースコード ==Cコンパイラ==> バイナリ
なので、nimコンパイラが通った時点でメモリ安全性が担保されませんか?
Nimの実験的特徴
著者: アンドレアス・ルンプ
バージョン: 1.5.1
http://nim-lang.github.io/Nim/manual_experimental.html
Nimは限りなく抑え込まれたタイプ量で高い生産性とPythonのような高い可読性を実現し
ているにもかかわらず、高速なCのソースコードを吐き出せるのでC言語でリモートワーク
されている方は割り振られた仕事が早く終わっても終わってないふりをして怠けることができる
「怠け者とはこうあるべきだ!」と言うとても大事な事を Nim は我々に教えてくれます >>1
kaggleやり始めた
全然順位上がらない😭 東京都のコロナ感染者数の予測をやっている人いませんか?
もしいるとして、どれくらいの精度ですか? 測定データに大きな偏りがあるため予測不能
なんか数字が出たとしても、誤差さえも見積もり不能 カコ習慣の平均とを使用するとか工夫すればある程度できるんでね?
でも予測ってどんなん?
出せても感染者の予想分布かな 統計の基本中の基本だけど
偏ったサンプルデータを分析に使うと
まともな結果は導けない 実務でまともなデータなんてあまり無いよ
そんなデータからなんらかの成果を出すのが腕の見せ所なんだけどね そうだけど糞データではどうしようもない
後々面倒なことになる Rustのメモリ安全性はボローチェッカーによって担保されているが、
Nimと比較してRustはタイプ量が多い事により限りなく低い生産性と
C++のような高い難読性、超巨大なバイナリ生成性能を兼ね備えています
Nimはバージョン1.5.1でRustのボローチェッカーに似た「View types」が実装されれば、
GC無しのView typesで参照の有効性を検証することによってメモリ安全性を保証しつつ
限りなく抑え込まれたタイプ量で高速化したCのソースコードを吐き出せます
Nimソースコード ==nimコンパイラ==> Cソースコード ==Cコンパイラ==> バイナリ
なので、nimコンパイラが通った時点でメモリ安全性が担保されませんか?
Nimの実験的特徴 バージョン1.5.1
http://nim-lang.github.io/Nim/manual_experimental.html
第二プログラミング言語として Rust はオススメしません Nim をやるのです
https://wolfbash.hateblo.jp/entry/2017/07/30/193412
Nimは限りなく抑え込まれたタイプ量で高い生産性とPythonのような高い可読性を実現し
ているにもかかわらず、高速なCのソースコードを吐き出せるのでC言語でリモートワーク
されている方は割り振られた仕事が早く終わっても終わってないふりをして怠けることができる
「怠け者とはこうあるべきだ!」と言うとても大事な事を Nim は我々に教えてくれます optunaユーザーいる?
いまいちじゃないコレ? >>935
コロナ感染者の予測を出したいなら、用いられた検査方法と検査キットの情報は不可欠
測定誤差が大きすぎ https://news.mynavi.jp/article/20210823-1954227/
東芝など、学習済みAIを用途やハードの仕様に合わせて展開できる技術を開発
2021/08/23 20:28
DNNのサイズをその重要度を見分けて削る事で
小さなエッジデバイス上でも性能を落とさずに
AIモジュールを動かすことができる、と 塩野義製薬 AI創薬技術によるマルチターゲットに対する創薬を目指した米InveniAI社との業務提携について
https://www.shionogi.com/jp/ja/news/2021/04/210428.html
塩野義、創薬研究における開発候補化合物の探索にAWSクラウドの利用を開始
https://classmethod.jp/cases/shionogi/
塩野義製薬、新型コロナ重症化抑制の候補薬で米バイオエイジ社と契約
https://www.nikkei.com/article/DGXZQOHD268OV0W1A120C2000000/
製薬業界の丸ごとAI化を目指す取り組み(LINC)が日本でスタート 塩野義、理研、京都大学、NEC等
https://news.mynavi.jp/article/20171013-okuno_vinas2017/
>富岳スパコンを使った分子化合物シミュレーション
>AI(機械学習)を使った、分子動力学計算の最適化 AIを使った分子自動設計 タンパク質立体構造の予測
>知識ベース、過去の分子ビッグデータを整理し、解析、探索するデータサイエンス技術 検定の考え方と機械学習(特にdeep learning)ではかなり考え方に差がある。 mecabより良い解析器って出てこないのかしらん? >>951
使っている手法がcrfベースと古いから >>954
手法が古くても必要な結果を得られたら問題無いんじゃね? バイトペアエンコーディング全盛の今、形態素解析なんて時代遅れだよねと思いきや、Whole Wordなんて手法も出てきてやっぱり重要だっていうね >>955
ビッグデータ処理してると数パーセントの精度の違いが大きく出てくるから
なるべく高精度のが欲しい 精度が売上に直結するならいいけど
弱い相関ならシンプルなロジック選んでしまうな 40年以上前から言われているけど
何文字以内、何行以下の要約というのは
あまり意味がない。必須な部分がかけてしまうかもしれないし
余分な部分が残ってしまうことがある 愚痴みたいになるけど形態素解析とかIMEみたいな古典的な分野ばっかやりすぎて
統計的機械学習やディープラーニングへの対応が遅れて
世界に取り残されたのが日本の自然言語処理のアカデミアってイメージ
アテンションやトランスフォーマーみたいな仕組みが
日本から出てこなかったのは悲しい >>957
それなら古いからじゃなくて必要な精度を得られないからってことで
精度に関わる他の部分を変えることで目的を達成できるかも
何がその目的達成に影響するのかは判らない >>950
spaCyかな。利点はGPUを使えるので圧倒的に早いこと。欠点はPython依存。 >>958
個人的にはあれはよくできてると思う。
まず、要約はextraction法とabstraction法の2種類がある。
extractionはbowを作って単語の頻出度で統計処理することでウェイトの高いセンテンスを抽出する。
一方、abstractionは要約済みの学習データをseq2seqで機械学習させることで、要約エンジンを作る。
松尾研のベンチャーが作ったのは、後者のabstractionの方で、日本語でabstractiono方式の要約エンジン
というのはほとんど見たことがない。
ただ、実際に売れるかどうかは別。
この種のシステムは、を企業向けに販売しようと思ってもクラウドでAPIで提供する方式の場合だと
企業は内部情報が外部に流出することになるのでまず100%導入はしない。
一般的なのは、企業が利用してるクラウドの中にシステム用のサーバーを立ち上げるか、
企業のイントラネットの中に専用サーバーを立ち上げることなんだが、
これをやるとSI業者には勝てない。
また、下手にこの領域に踏み込むとSI 業者が海外製の要約エンジンを日本語化して販売
を始めたりするので、敵を誘い込むことになる。 >この種のシステムは、を企業向けに販売しようと思ってもクラウドでAPIで提供する方式の場合だと
>企業は内部情報が外部に流出することになるのでまず100%導入はしない。
用途で言えば内部情報より外部の公開情報を要約してリサーチ等に使う方が多そうな気がするが。
そうでなくても、契約文書をチェックするサービスなんてのも商売になっているくらいだし。 optunaで指定するパラメータの範囲はどう決めれば良いの?
apiにパラメータの取りうる範囲が1 <= p < ∞とあるとき >>966
無限大に発散するような関数はまずないはずだけどどういう式? >>969
xgboostのパラメータ
reg_alphaとか >>877
Rejected internal applicants twice as likely to quit
doi.org/10.5465/amj.2018.1015 >>965
いずれにしてもSeqモデルによる実装は簡単だから、要約済みの学習データさえ準備できれば
要約システムは簡単に構築可能。無料で出す分にはみんなは面白がって使うだろうけど、有料提供
となると、かなり困難に直面するんじゃないかと思っただけ。
Seqモデルは、かなり一般化してきてるので、NLP専攻の学卒者だったら、十分に構築は可能。
これが機械翻訳とかだと、かなり膨大な学習データが必要となるので、参入障壁になるが、
自動要約だと、元の学習量もしれてるので、NTTデータや富士通あたりだと多分、簡単に作れる。
また、要約の精度は学習データに依存するので、どこまで精度の高いデータを作れるかは、
最終的には開発元の資本力によって決まることになる。 松尾研で文章を3つの文にまとめるアプリができてましたが
これを任意の文の数にまとめられて更に
「動作を文章にするアプリ」と組み合わせることで作業手順書の自動作成ができて
ひいては行動計画に関する人工知能の開発が進むといいんですがねえ どうして文の「数」にこだわるの?
重要なことがその「数」以上あったらどうするの? 3つにする、5つにする、など試して最も妥当な説明書になっているものを最終出力出来たらいいんですがねえ 重要な項目が5つあって、3つの文にせよ
という場合は、一つの文に2つ盛り込むとか?
なんだか本末転倒だなあ
重要な項目がいくつあるか分からなくなるじゃないの 重要な項目の数に合わせて文の数も調整できたらなあ
更にはそれぞれの文の構造化まで自動化 例えば、裁判所の判決文とかは全部重要なのだそうで
要約できないらしい。法曹関係者が要約が下手なのは
そういう理由もあるらしい だが待って欲しい
その手順は本当に必要だったのだろうか 試しにここのテキスト入れてみたら
めちゃくちゃ的外れな要約が出てきた
どうやら掲示板は向いてないらしい 新聞記事も読み終わって何がなんだかわからない
という記事が多いから、要約しても無駄だな > お前は毎朝起きるたびに俺に負けたことを思い出すよ^^
あー、ホンッとに思い出すなあ(笑)
キチガイの嘘つきの低レベルFランの、
朝鮮ゴキブリBot君は、
チョン独特の「なにもできないけど俺のほうがジャップより偉い!」的な
ことはよーくわかったよ。
ホントなにもできない朝鮮ゴキブリBot君!
クソチョンw リッジとラッソ回帰をうまく説明するためのデータセットて何かある?
勉強会の資料で探すてる
ボストンの住宅価格でやると効果わかりにくいからその他でいいのおすえて このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 267日 16時間 34分 27秒 5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/
▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php レス数が1000を超えています。これ以上書き込みはできません。