【統計分析】機械学習・データマイニング21
■ このスレッドは過去ログ倉庫に格納されています
機械学習とデータマイニングについて何でもいいので語れ若人
※ワッチョイだよん
次スレ立ての際は、一行目冒頭に
!extend:on:vvvvv:1000:512つけてね
■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76
■前スレ
【統計分析】機械学習・データマイニング20
https://mevius.5ch.net/test/read.cgi/tech/1533635797/
VIPQ2_EXTDAT: default:vvvvv:1000:512:----: EXT was configured まーた無駄な知識の話してるw
そんなもの必要性皆無なのにw >>216
同意。分からんと困りそうなのはベイズ理論くらい 普通に分析してればべイズになってるから
気にしなくていい Tensorflowを32bit windowsにも対応させてほしい 必要ないよ、チートシートみて適当にやるオペレーターだもん。 色んな知識を持っとく事は大事だと思うんだよね
上で出てる統計の知識にしてもドメイン側の知識にしてもさ
時間が取れるなら勉強すれば良いと思う
絶対無駄にはならない
ただ仕事だと悠長に出来ないからとりあえずライブラリ使いにとどまってしまうのも分かる 就職した時点で決まってしまうかね。
ステップアップ出来るのかな 日本では外資を除けば今いる企業より上位の企業には転職できないルールがあるので無理 keras使い初めたけどチュートリアルから進めない
なんだこれ難しすぎるゾ ルールねえ。yahooとか気にしなそうだがどうなんだろ >>202
>Neural Compute Stick 2
GPUと比べてコスパどうなの? >>248
yahooのヤクザ感半端ねーから。あそこはやべーぞ。 国内企業は通年採用だろうが賃金の面でも概ね外れ
実力あるなら外資一択 >>249
単純にコスパだけならGPUかと。
小さく省電力ってところに価値があると思っている。 あくまで貧弱なIoT機器の計算資源を補強する用途だろう せっかくlstmでやってたのに
構文木をだっさく取り入れちゃってどや顔してる日本人研究者カッコ悪い
transformerみたいな発想を産み出せなかったのが残念 日本の学術会だと新しいものは評価されない(できない)から仕方ない
既に評価されているものを組み合わせるか、重箱の隅をつつくしかない 大学教授は縁故採用が多い。
公募は形式だけで募集する前から決まってる。
そんなコネ馬鹿教授ばかりだから
新しいものなど認める訳がない!
まず馬鹿だから理解できないし、
新しくて有効なものを認めてしまうと
己の地位低下を招くから。 講座のボスの言うとおりにしてれば丸く収まるからなw 飽きたらない優秀な人はみんな外に出ちゃう 工学系だとFEMの理論知らなくても解析できるしAIもそんなもんでしょ 自然言語処理系に強いツールを紹介してもらえませんか?
とりあえず、文書の分類や意味の解析などをやりたいです。 >>261
GUIのアプリがいいのかなんらかの言語のライブラリがいいのか詳しく >>262
プログラムを使って色々カスタマイズしたいので、ライブラリーがいいです。
TensorFlowの自然言語処理拡張ライブラリーみたいなものがあれば・・・ 結局、機械学習の専門家ではなく、データを管理してる現場担当の人間がマイニングするのが一番効率がよい
学生らに言いたいがデータサイエンティストなんてなるなよ。企業じゃ使えないから >>263
自然言語処理ライブラリが弱いのが tensorflow の弱点。
そのために pytorch が急伸した経緯がある 医療に機械学習などデータサイエンスを結び付けて、
効率的な医療を実現するような仕事をしたいと考えている学生ですが、
医学部医学科の学生が(医学の勉強はもちろんやるとして)統計や機械学習などを学ぶことに意味はあると思いますか? 医者なら統計は知ってそう。薬学では統計使いまくると思いますよ。
技術者に丸投げしないためにも勉強した方がいいとおもいまふ。
以上、雑魚エンジニアの一般論的意見でした >>263
本当にDeepな手法でやる必要がある話なのかをまず考えてみては
TF使ってるくらいだからPythonで書いてるんだろうしgensimで実装されてるアルゴリズムを試してはどうだろう
分散表現を作るだけでも役に立つだろうし 開業医なら効率的な医療だって何だって自由にやれるんだろうけど、勤務医なら組織が大きければ大きいほど相当偉くなるまでは裁量なんてほぼなさそう Coloboratory使ってる人いる?
TPU使えるから12時間限定でも問題なさそうだけど 花の画像から、花びらやがく、茎などの部位を機械学習で着色する仕組みを考えています
今は手作業で200枚くらい正解データがあって、
花びらを赤、おしべめしべを黄、がくを緑、茎を青といったルールで色づけています
花は身近なタンポポなど野草がほとんどで18種類です
データが圧倒的に足りていないのもわかっているので
特定の花だけに限定して正解データを手作業で作る作業もしています
文字・数字認識や物体検知の課題では、画像と正解ラベルをセットで学習させていますが
私の課題の場合、ピクセル単位でどこが花びら=赤、茎=青、といったデータも作る必要があるのでしょうか?
線画を着色するGANsの仕組みが近いかなとも思い調べたのですが、
着色範囲がぼやっとしていて、私の課題にはそぐわないように感じました
実現可能性が低いのは承知のうえで、こういった課題の場合
どういう仕組みが考えられるのか、お詳しい方アドバイスいただけたらうれしいです
スレ違いでしたらすみません >>276
セマンティックセグメンテーションでググれ >>277
キーワードとても助かります
やはりピクセル単位でラベル付けが必要ということでしょうか
道路の白線を教師なし学習でやってみたという事例も読んでみましたが
元画像の色情報が重要ということで、いろいろな色がある花の場合難しいかなという印象でした
とりあえずこのアプローチで試行錯誤してみます
ありがとうございます
>>278
精進いたします >>276
pix2pixでセマンティックセグメンテーションするのはどうだろう?
データが大量になくてもそこそこ出来る(200枚だと流石に少なすぎるかもしれないが) >>269
機械学習を活用しようとしている一研究医師としては、意味があるとは思う。
ただ未来ではなく現在の機械学習技術をベースに話をすると、有用な成果を出すためには
機械学習の知識より医療の経験の比重が高い印象。
現在の機械学習技術は活用できる範囲がかなり限定的なため、何でもかんでも医療データを
突っ込めば成果が出るというものではない。
学生なら趣味として機械学習の本のサンプルプログラムを動かしつつ、応用が利く臨床医
となるために医学自体の勉強をより頑張る必要があると思う。 >>281
ありがとうございます
単語で調べたところ、猫が含まれた画像から猫の範囲を抽出する、という事例を見つけました
セマンティックセグメンテーションともに、自分なりに少し時間をかけて理解に努めます あくまでメインは専門に重点置いたほうがよい
機械学習はサブ 統計学の拡張として機械学習の概論を知っておけばいいというだけ。
細かい技術を知る必要は無い。 点数が付くようになったらセミナー(よくある10万ぐらいで2日の講習)を受けて知識をつければいいんじゃね OracleやCADの講習なら100万overがデフォ アマゾンのレコメンドシステムが
未だにクソの邪魔ものでしかないのに
クソのような教材に決まってる。
まったく興味ない グレースケールの画像を転移学習させたいのですが、良いデータセットないですかね?
グレースケールのはMNISTくらいで他はカラーの画像のデータセットしか知らないのですが TF probability をやり始めたけどさっぱりわからん… どうすりゃいいのw angular なんか分からなくないだろw
>>296
pytorch のやつやれ angular momentum とは角運動量のことである 交差検証についてなんですが、例えばアイリスデータでSVMで3分割の交差検証した時(3分割の平均が)94%〜97%ぐらいばらつきがあると思うのですが3分割の平均をさらに100回の平均とかして評価するって感じでいいんですかね? >>303
研究とかで発表するときはどういう値を使ってるのですか? Microsoft Facebookの人工知能ツール「PyTorch」への開発協力
https://aitimes.media/2018/11/20/1080/ 例えばkaggleとかなら初めからトレーニングデータとテストデータが分かれててテストデータとの答え合せで数値としての精度を用いてます。
自分で1つのデータを用いて精度を出したいときに、データが少なくてテストデータの選ばれ方にかなり影響を受けるというようなとときにはどういう風な値を用いればいいのかっていうのが聞きたいです。 >>306
テストデータの選ばれ方によって予測精度が全然違うみたいな時です。 バイアス・バリアンスでグクってみな
過学習気味だと思う 扱ってるデータの性質上データ数が少ないのは仕方ないのです…
今書いてるコードなんですが、
sklearnのcross_val_scoreでcvパラメータに層化分割を渡してます。(StratifiedKFold(n_splits=3, shuffle=True)
これでfor文で例えば100回回すと3つセットのスコアが100個出てきますよね?それで3値の平均のさらに100個の平均って感じで評価基準にしてます。3つセットのスコアの分散がそこそこ大きいのは仕方ないと思ってます。
これで良いのですかね。 仮にだが、同じテストデータを入力したとして、都度異なる結果を得るかもしれない。
そうなら気にしない。 >>314
まんま俺じゃねーか!
まぁケース買い直して難を逃れたけどな >>314
そのアニメおかしくないか?
その方向にガッ!とかいってひっかかるかな? 確かに。
おれは疲れているんだよ。
おれはおかしくなってる。 初めて来たけど新しくて注目されてる分野だけあってスレも活気があっていいね 新しい理論ではないけど、
計算機の進化で計算できるようになったのと、
データ分析が役に立つことが認識された
ことが大きいと思う。
理論として21世紀に出てきたものは
ほとんどない。
DLなんて50年前の理論たし。 基礎理論は昔に提唱されてたけど、実際できるようになってからの進歩は目まぐるしいよ
alphaGoとalphaGpZEROには恐れ入った 基礎理論とハードのスペックが揃えばそれだけで使い物になるわけじゃないからな ディープラーニングのG検定ってどうよ?
公式テキスト買って読んでるわ。 G検定でバーニーおじさんのルールってのが出たらしいけど、ググってもG検定関連の記事しか出ない
バーニーおじさんの出所ってどこなん >>233
落ちた人と比べたら受かった人はそれなりに理解していることが判るだろ
2級に合格した人が1級の能力を持っていないとは言えないけど
2級の能力を持っていることは判る
何も受けていない人は何も判らない
ゼロかもしれないし1級を超えているかもしれないし
判断する側からしたら区間推定の範囲を狭めることができる ■ このスレッドは過去ログ倉庫に格納されています