【統計分析】機械学習・データマイニング26
レス数が1000を超えています。これ以上書き込みはできません。
機械学習とデータマイニングについて語れ若人
*機械学習に意識・知能は存在しません。
人の意識に触れたい方はスレ違いです
■関連サイト
機械学習の「朱鷺の杜Wiki」
http://ibisforest.org/
Machine Learningを用いた論文一覧2018
https://shiropen.com/seamless/machine-learning/2018
2017年のディープラーニング論文100選
https://qiita.com/sakaiakira/items/f225b670bea6d851c7ea
DeepLearning研究 2016年のまとめ
http://qiita.com/eve_yk/items/f4b274da7042cba1ba76
■前スレ
【統計分析】機械学習・データマイニング23
https://mevius.5ch.net/test/read.cgi/tech/1551352040/
-
【統計分析】機械学習・データマイニング25
https://mevius.5ch.net/test/read.cgi/tech/1561568018/
【統計分析】機械学習・データマイニング24
https://mevius.5ch.net/test/read.cgi/tech/1556674785/
-
VIPQ2_EXTDAT: checked:vvvvvv:1000:512:----: EXT was configured
VIPQ2_EXTDAT: checked:vvvvvv:1000:512:: EXT was configured 前スレ>>992
べイズ統計学ってなーに?
分かりやすく教えて! >>4
https://to-kei.net/bayes/basic/
頻度論
パラメータが定数、データが変数(確率変数)
ベイズ統計
パラメータが変数(確率変数)、データが定数 >>5 最近機械学習始めたバカだけど、ベイズ統計のほうが圧倒的に役立つ気がする。 須山がすっきりわかる本を出せばいいのに出さないのが悪い 前処理→頻度統計(ここでの意味は、一昔前の統計学)
機械学習の理論→ベイズ統計
前処理がうまくなると、精度が上がるだけでなく、モデルの安定性が格段に増す
理論が分かると、個別の問題設定に対応した黒魔術が出来るようになる
結論、どっちも大切 >>8
最尤推定推定は最尤推定、ベイズ推定とは別と理解している。
深層学習とかで使う、対数尤度の式を展開するときベイズから展開する時があるような? >>6
最近始めたばかりのやつがどちらが役立つかなんてわかるわけねーだろ でも勉強を進める上でどっち先にやればつまらないかってのはあるんじゃない
理論よりならベイズ、実務よりなら頻度だろうな みんなはどうやって環境構築してるの
anacondaを使ってやるのがセオリー? anacondaは初心者のうちだけ使う
でも最近はAWSがサポートしてるからまた使いたくなってきたな 俺、初心者じゃないけどanaconda使うわ
anaconda使うことを否定する派は
1. 昔のトラブル多い時代から触っているヤツ
2. システム環境領域にインストールするヤツ
のどっちか
個人領域にインストールする分には全く問題ない 環境構築は今アホみたいに簡単になってるのね
参入障壁下がったなー 数年どころじゃないな。でも日本で広く普及したのは2015年ぐらいからだと思う
その頃にはアプリをダウンロードして解凍すればハイって
状況が整ってた。書籍もいっぱい出てたし anacondaは今でもPATHの問題はある。
それでも他のpython管理でぐっちゃになるよりかは管理は楽だったりする。
それでも問題ならコンテナ使うなりVM使うのが正解。 個人で使うならcondaでもいいけど、
linux環境ならVMでpipかコンテナ、windowsならコンテナを使うほうが主流だと思う
pythonのコミュと、condaのコミュが喧嘩したままなのがすべて悪い >>pipかコンテナ
コンテナっていうのはanacondaとかvirtualenvのこと? 簡単だから
ついアナコンダ使って
インスコしてしまうw >>22
気持ちは分かるなぁ
Pythonコミュニティは無償で維持し続けているのに、単なるパッケージャのAnacondaが会社まで建てて儲けまくり
それでもmklを無償で使えたり、Nvidiaのドライバがすんなり入るのはAnacondaチームの政治力だと思うんだ 機械学習だけか分からんけど、英語論文に出てくるmotivationってどういう意味なの?直訳動機付けなんだけど… 機械学習に見切り付けるよ。サヨウナラ
客の懐事情が悪い。 今の日本は奴隷国家だから機械学習使うよりもたいていは
人間こき使った方が採算獲れるというね。。 画像処理は世界共通だからね。
ベトナムの企業に依頼すると
日本の10分の1で済んでしまう dockerを使ったら
pipでもanacondaでもどちらでもよくね? 画像処理は仕事がまだあるけど、需要と供給が拮抗しはじめて以前ほどボロくない
あとカメラ業界が儲からなくなって、若く優秀なエンジニアが画像処理に転職してくてるから、
全体のレベルは跳ね上がって別の意味でも辛い cudnnて何でCUDA toolkitと一緒に入れてくれないんだろう
あと、なんて読むのだろう
クゥドゥン? 画像系はとっくにコモディティ化したのかと
GCPは数十枚単位の画像で学習終了 >あとカメラ業界が儲からなくなって、若く優秀なエンジニアが画像処理に転職してくてるから、
カメラメーカーからソフト屋に転職してきてるのか・・・最悪だな カメラ技術者をソフト会社がわざわざ雇う意味あるの? カメラメーカーでCのコードを叩いてるエンジニアは、能力的には上の上でも給料的には並だったりするんだよね
BtBの画像処理は光学やカメラに対する知識の方が画像処理より重要だったりするんだけど、
奴らはそれを理解しているから機械学習を勉強して転職してくる
生粋のソフト屋より有能 プログラマーがカメラメーカーに就職してメカトロ勉強するのマジ辛いけど
向こうからこっちくるの超簡単じゃん。それでお給料がボンッ、ボンッと増えるんだから
侵略しにくるでしょ。俺達では太刀打ちできない >>46
勉強会で知り合った人がカメラメーカーに務めていて、
彼から話を聞いた。マジ >>35
人間こき使ってコスパで負けるようになって機械学習を使う。 >>35
派遣社員っていう会社にとって都合のいい社員も存在するしな
誰があんなものを作ったのか中国やアメリカの派遣社員より相当緩い仕組みになっているし
漫画家とか技術者もそうだが中間で採取されて制作している人にはお金が行かないようになっている
全体的に上に行っても負担が増すぶん給料は上がらないんで上昇志向はどの国よりも低く
今の若い奴等は年金が支払われる前に痴呆症になってるんじゃないかっていうぐらいまで働かないといけないっていう そんなことは就職前から分かりきったことなんだから最初から搾取する側に入ればいいだけのこと
努力せず遊び呆けて働きだしてから「日本は搾取の構造だ!」と叫ぶ馬鹿が多すぎる >>53
採取する側は叩けば埃の出るような犯罪者っぽいのがほとんど
競争社会を勝ち抜いて行った先にあるのがそれだろ
それに努力すれば金持ちになれるようなルールにはなっていない そうそう
儲けたほうが勝ち!
楽しんだほうが勝ち! 努力して上位大学を卒業するだけで割と簡単に搾取する側になれるルートが誰にも用意されているのに何を言っているのか >>56
そう思ってるだけで実際は採取されてるんじゃないの?
上位大学ねー
競争意識を利用して国が一番採取する人材を作り出しているところだな 競争に買った側を犯罪者呼ばわりしたり、なんというか惨めな負け組が僻んでいるだけにしか見えない ここに居るようなAIのプロなら全員自作投資AIで資産を数倍にできるし… >>53
こういう馬鹿がさらに搾取構造を強化してるわけだ。 >>50
しっかりした技術力を持ってるところなら大丈夫だろうな 「搾取する側は馬鹿だ!」と騒いだところで搾取される側は搾取され続けるんだがな 搾取側は騒がれるのを一番嫌がってるんだがな。
ワタミも騒がれなくなったら馬鹿が戻ってきやがったw
また地獄行きだよ。 採取する側に立ったとして人生の貴重な時間を若い頃から費やしている訳で
お金で幸せは買えないが、時間で幸せは買えるとか
時間を重視する派の方が金を重視する派より仕事の満足度も幸福度も高いとかっていう
統計的結果が出ている中、仕事に没頭してガッツリ税金を納めている訳だから
それはそれで代価を支払っている訳で
何もかも手にしている訳では無いわけだけど むしろ日本では搾取される底辺達用のきつい仕事ほど給料少なくこき使われる傾向なので自由に使える時間もなくなる >>68
そう思っている分野って意外に年取った奴も多く居たりしてないか?
若い奴しか居ない分野より本当に大変なのか?っていう プログラマーの仕事も激減するなって分かるな
AWSやGCPがいったい何人のプログラマーの仕事を奪ったか分からない奴は時代感覚がない プログラマーの仕事も激減するなって分かるな
AWSやGCPがいったい何人のプログラマーの仕事を奪ったか分からない奴は時代感覚がない >>70
AWSやGCPって便利だけど
使ってみたら料金の高さに唖然・呆然!
直ぐに解約した。
あの金額をプログラマに払えば
かなりプログラマは裕福になると思う。
社内にサーバー設置して
AWS風のクラウドを構成
すればいいだけ。
簡単だよ。 そう?
電源確保して
冗長構成して
マシンも定期的にリプレースして
のコストだと思うと妥当じゃない? 妥当だな。
てかプログラマの負担が減る方向に技術が進歩してるってのに
一向に幸せにならん社会システムの方が問題だろ。 AmazonやGoogle並のセキュリティや安定稼働を社内の一部門で保証できる企業なんてほぼないんだから
今更社内に大型サーバー設置するなんて選択肢取るような企業があったら驚きだわ 海外でも変わった国として見られているからね
「日本は暴力・薬物事件も少なく殺人件数も低く就業率も高いがいまだに貧困率が高い」と海外で報じられる
https://gigazine.net/news/20190731-japan-poverty/ >>81
大型サーバーってなに?
何も知らん技術ないやつらが
AWSスゲーとか
いってんのは分かった >>81
電源とかPCとかググってみろと
いっても理解できんだろ?
ま、50万くれたら
都内なら1日だけ時間作って
基本を教えにいってやりたい!
しかし今はアルバイトできないのよ
今の契約終わったら教えにいつてやる。
スパルタ教育だで。
殴ったりしないが馬鹿には容赦しない
罵声浴びせるから精神鍛えておけ! 全くの初心者が初めてディープラーニングを学ぶのに
お勧めの書籍を教えて下さい。
『ゼロから作るディープラーニング』でしょうか? >>76
じゃ今まで社内失業者を飼っていただけの話だったのか?
富士通だけでなくNTT・NEC・東芝と併せて7万。
3メガバンで3万。3メガバンは10万やれるんだが金融庁がストップをかけたとか?
メガバンより酷いのが地銀以下、地銀以下の合併をやってリストラをやらんといかんのだが、
地銀以下の主導権争いによって全然進まない上に、せっかく当事者と金融庁まではまとまったのに公取委が独占禁止法を盾に待ったをかけたとか言う事例まで。 >>87
色々と読んだけど、それが一番オススメ。間違いない
1を読み終わったら、自然言語処理に興味がなくても2まで読むといいよ データサイエンス系の機械学習エンジニアの要求スペックが高止まりして、
この業界に必要なスキルがだいたい明らかになったな
物凄く要約すると、
機械学習+自然言語処理or画像処理+クラウドアプリケーション開発
これをひとりでこなせる奴が、アメリカにはゴロゴロいる
日本はまだちょっとぬるいからスキル上げるなら今のうちだわ ところでクラウド系の仕事は要件定義書を書くスキルがいらなくなるんじゃないかと
思ってるの俺だけ?
まあたぶんそうはならないんだろうけど、そういう感覚はあるよね >>90
ありがとうございます。
ちなみに以下のサイトとどちらがお勧めですか?
どちらが良いか迷っています。
よろしくお願いします。
https://tutorials.chainer.org/ja/tutorial.html >>84
とりあえず同じ要件でNTTデータかアクセンチュアにでも頼んでみたら?
もっとバカみたいな見積出してくるからw >>91
機械学習+アプリケーション開発
AIをシステムとして展開する為には、このセットが重要だけど、後者は未だに軽視
分析は出来るけどシステム設計できない新卒を青田刈りするより
現役のSEに機械学習覚えさせたほうが使い勝手が良い >>95
SI屋のSEがアプリケーション開発を重視してるとは思えないけどなぁ。
人海戦術でなんとか動くものをギリギリ作ってるだけでは重視と言えないだろ。 >>95
個人的な印象はどっちも大してコスト変わらんからどっちでもいい。
どっちも結局同じくらい苦労する。 意味もわからずAPI使うだけなら関係ないけど機械学習の理論を知識無しから学ぶのは社会人にはキツイ
大学で理論学んだ人間が社会人になってシステム開発も覚えた方がやりやすそう 大学で機械学習の研究やってる人間がまったくコード書かないってことはありえないだろ
そういう人間にプロトタイピングやらせてSI屋がリファクタリングすりゃいいじゃん 大学で理論を学んだけどコード書けない奴は五万といる
そういう人はIT志望じゃないけど コード書ける書けないの基準による
実験データの処理のようなプログラムであれば誰でも書けるが
ソフト会社で求めるのは複数人開発を前提とした大規模プロダクトの開発のノウハウだがそっちの知識は皆無な人が大半 >>103
金にならないプログラマーってことですね。 bigqueryでデータ管理して、pythonで分析、ダッシュボードで可視化
という最小単位のシステムなら、ひとりで組めるしそういう知識もいらないけどね
スマホ連携やら組み込みやらでやることが増えると、
クラウドの外側で昔ながらのスキルが要求されるようになっていく ローカルなシステム開発も中途半端なところは
技術をプログラミングの民主化や、フレームワークの進歩に吸収されていくから、
組み込みでシステム開発をやってるような、振り切ってるところ以外は
生き残れる確率が低いと思う >>80
2013年度 NHK会長、副会長、経営委員長等の給料(年)
NHK会長 3800万円/手当込
副会長 3370万円/手当込
常務理事 3020万円/手当込
理事 2856万円/手当込
経営委員長(常勤)3792万円/手当込
NHK社員 1780万円/手当込
※総理大臣、国会議員の給料
総理大臣 2727万円
国会議員 1842万円
【予算規模の比較】
海上保安庁 2177億5345万7000円
警察庁 3420億8472万9000円
環境省 3459億4527万4000円
NHK 7547億7700万円 プロト書かせても汚過ぎたらリファクタリングはできんし、
リファクタリングする方もある程度の理屈はわかってないとできん。
tensorflow なんかとくにモジュールがぐっちゃになってて、
結局両方わかるやつがいないとどうにもならんということになる。 個人的に前処理用の関数や、モデルおよびパラメーター調整用の関数
はコード汚くても全然いい >AIで初のカラー化
何年も前にモノクロ映画のカラー化ってやったじゃん
別にって感じだよ マジレスするとExcelの使い方から。
データ整理でよく使うんだよ。 >>113
伊勢湾台風の映像が初のカラー化ってことでしょ。 >>120
サルでもわかるディープラーニングでしょ。理論やプログラミングに触れないやつだよ 画像を入力してキャッサバとマンジョカの違いを見分けられるかな >>124
キャッサバは芋でマンジュオカは粉
でいいのかな 画像の分類に関しては人間の精度を超えたことになってるから人間ができるものはだいたい識別できるでしょ 片栗粉白玉粉8:2のとマンジョカとキャッサバとタピオカを全部一緒だと判定するかな 人間が見て判別できないぐらい酷似した見た目の画像を用意されても判別は難しいだろう
でも人間にもできないんだから仕方がない 紫外線や赤外線、テラヘルツ波など人間の目が捉えていない領域を取得したデータで学習したら区別できるかもね >>132
そんな対象に複素ネットワークをうまく利用したいですね >>132
ただの測定やん!
にならないくらい難しいものを判定しないとな でも美人とブスは判別できないだろ?
教えてやらないと。
俺は教わらなくても、立つほうが美人だとわかるからな。
AIは、立つ部分がないから 親子判別機作りたいんだけどどこかに教師データ無いかな? 色盲とか弱視のひとは
色を見分けられないんじゃなくて
特定の色には激しく反応出来るので
普通の人では観えないものが観えたりする >>137
ネット上にたくさん画像がある方が美人なのかもしれない 地味にブスの画像を集めるのって苦難の道だよな
ネット上にあるのは奇跡の一枚物ばかりだし 美醜判定の研究は心理物理実験で人が行って分けた画像に対して特徴を求めるのが一般的 シンメトリー具合が客観的かと思われるけど
美醜は基準が変わるだろ 標準的な顔が美男美女だという研究結果が昔あったなあ >>147
標準的、というか個体差を集めてその中間を取ったという意味の平均顔でしたね >>147
データの次元が増える程、外殻部の密度が高くなり中心部は疎になる
次元の呪いの現れ >>150
その解釈があってるかどうか知らんけど面白いね >>150
ユークリッドノルムは高次元では無意味、という経験ならあります… だからさ、立つ写真と縮んでしまう写真を
集めて学習させるのさ。 黄金比が審美医療で使われてるから顔のパーツの比を計測すれば美醜の判別は数値的にできると思う
あとはエントロピーの低い顔は美人なはず
ダウン症などの奇形顔はエントロピー高いから 平均的な顔がいいっていうデマね。
実際は美人バッカ集めて平均取った方が圧倒的に良かったとかそういう結果。 機械学習やるなら、Cかjavaかpythonだよなあ
データサイエンティストおよびクラウド系のデータエンジニアならpython
大規模開発およびローカル系のデータエンジニアならjava
ローカル系および組み込みならC
javaの領域は今後すこしずつ縮小していく見通しだから、
新規で入るならpythonかCがオススメ >>159
出来合いのライブラリを使う話?
スクラッチでつくる暇人はいないか 巷で売れてるkaggle本買いました
これから勉強します 統計学の勉強を本気で始めたら
恐ろしく難しいということがわかってきた
どうしたらいい? >>161
amdも意外と使えるらしいけど、情報ないし疲れるよ。動かないとき常にうたがっちやうしね >>161
まずはawsかgcpでやってみろ。
はじめからグラボなんか購入しても必ず後悔する。 古典統計とは集合論と位相空間論から測度論に発展して確率論との関係性のあたり? 現実問題として、測度論まで必要になることはあるかなあ?
まずは連続量ではなくて離散量での理解が先かと思われる
それならそんなに難しくないでしょ 規定関数の概念と関数のノルムさえ理解していればいらん。 >>160
勉強のためにスクラッチで書くならpythonがオススメ。ネットに情報が多いから
仕事のためならC一択 統計学を理解できていないのに理解したと思い込んだ人はこういう頓珍漢なことを平気で言い出す
@Inetgate:
@usukutilife @u874072e 一般的な統計処理において、標本数が30を超える場合には正規分布を仮定できますが、
えん さんが調べた結果だと全然正規分布になってないので、食べログの数値操作疑惑、真っ黒じゃねーかと。
https://twitter.com/Inetgate/status/1181488204068749312
https://twitter.com/5chan_nel (5ch newer account) 母集団の分布が正規分布に従うと"仮定"すれば、間違ってない意見だな
仮定すれば って、もとのグラフをみたらbin数がやばかった・・・ 標本抽出の仕方がランダムサンプリングで
母集団が正規分布の時だけに成り立つことを言っているな 競馬あてて見たいんだけど特徴量として前5走を使いたいんだけどどんな実装にすればいいのかな
どなたかヒントいただけないでしょうか 前走の結果より血統でやった方が良いって先輩は言ってた 入力で与えるのが出馬一覧とかで順番の意味を無くしたいならPointNetとかの構造を真似したりすればいいんじゃない >>180
あれ、逆にわかりずらいと思うんだが。
環境設定がすげーわかりずれーわ。 >>185
ググればソースコード付きでいろいろ出てくるが >>184
中心極限定理の話しで
標本数を30にした平均値の分布は
元の分布に関係なく正規分布とみなせるって事だよな
食べログの分布もその分布から標本を30取り出して
平均値を求める操作を10000回繰り返して
平均値の分布を描くと正規分布に近くなるはず >>186
血統も絡めてるよていだけど、前走も大事かなと思いまして。
>>187
前走ではAの馬に負けてるから今回も厳しそう、とかの特徴を抽出したいなと思いまして、順序はそれなりに大事なのかなと考えています。
>>189
巷にあるコードよりも、より順序を重視する方法が無いものかなと。
数値やカテゴリーなどの特徴ではなく、多次元特徴を一つの特徴量として扱うことができないかなという感じです。 アルバイトでデータ解析やってる人間の意見としては、
とにかく役立ちそうな特徴量を選択せずにぶち込めるだけぶち込んで、
一度xgbかcgbを回してみればいいんじゃない
そうすれば重要な特徴量が何か抽出できるでしょ
話はそれからよ
勝ち馬をよく当てる人が何を大切にしているか調べることからはじめるべき 馬を株の銘柄に置き換えてリターンとリスク(分散)を元に
共分散使って有効フロンティアの曲線を引いて
無差別曲線と接する部分の比を見てパーセンテージの高い順に馬を買うってのは? >>184
すでに指摘されているが、母集団の分布は正規分布である必要はない
>>190
中心極限定理の話(前半の話)はそうだけども、後半の部分は何が言いたいのかよく分からない
食べログの評点は一人当たり整数値の1~5を付けられる(ある店舗における点数分布をAとする)
各店舗は添付ごとにN人の評価の平均を平均点として算出する(各店舗の平均点分布をBとし、これが話題となっている分布)
Aの採点を行うのが一般人であると仮定すると、各店舗は同一の母集団確率分布に従うものと仮定でき、各店舗の確率変数X1, X2, …, XNは同一の母集団確率分布からのランダムサンプルと考えられる
大数の法則により、標本平均(分布Bのこと)は母集団の平均に近づき正規分布になる
標本数30以上というのはNが30以上ということで、この部分は残念ながら自明ではない
ある焼肉屋の評価は67件から構成されているが、別の焼肉屋は2件となっている
つまり最大限「食べログ」を擁護するのであれば、標本数が30以上ではないため前提条件が間違っている、ということだろうか 各店の平均化する前の採点が同一母集団に従うという仮定に無理がありすぎる
例えばラーメン屋とスイーツ店の採点者が同じ傾向の採点するなんて仮定は不自然 >>196
すまん、焼肉屋しか見てなかった
実にその通り >>195
大数の法則は標本数を増やすと標本平均が母平均に近づくということ
中心極限定理は平均値の分布に関する定理
食べログの評価の数が30になった時点で平均値を計算して
一度リセットするのを繰り返す
その平均値の分布は正規分布に近づく
今の評価の分布がその店に行く人の評価の分布を表している
のであれば今の評価分布から30標本を取って平均値を求める
操作を復元抽出で繰り返しても同じような結果になるだろう ある店の評価分布は標本数が多くなっても正規分布になるとは言えない
分散が広くなるのはその店のサービスや品質が安定していない事が原因になりうる
その店の特徴が分布に反映される
同様に店を評価する側の特徴も反映されるだろう 深層学習の凄いことのひとつは特徴量を人が設計する必要がない、と本とかに書いてありますが、どう理解すればいいのか分からず教えてください!
ここでいう深層学習とはニューラルネットのことですか?(線形回帰やSVMと違って説明変数を人間が決めてないから? ) レビューを投稿する行動を取る時点で母集団にサンプルバイアス >>201
言ってることの一つ一つは正しいことは理解できるんだけど、何が言いたいのか理解できないんだ
食べログが評価を操作しているかどうか、は今説明してくれた事を駆使すれば判別できるんだろうか?
あるいは、Twitterの書き込みのおかしさ、は今説明してくれた事を駆使すれば、ココがおかしいと指摘されるんだろうか >>201
各店舗の分散は各店舗の分布には影響しても全店舗の平均値の分布には影響しないでしょ 中心極限定理はあくまで「同一の母集団から得た独立な確率変数であれば、十分な数の平均値を集めたものの分布が正規分布に近似できる」というもの
全店舗の採点者が同一の基準に従う採点を行うという前提が成り立たなければ成立しない定理 >>206
個々の採点者が同じ基準でないのに中心極限定理を持ち出しているのがおかしいと主張しているわけか、なるほど
同じ基準ではないにしろ、少し幅をつけてみよう
個々の採点者はある得点を中心に正規分布で配点する、もしくは一様分布で採点する、あるいは同じ点数しかつけないものとする
正規分布で採点する者は、正規分布の合成が正規分布になることから、平均値の分布もまた正規分布
一様分布で採点する者は、分布関数の底上げにはなるが平均値には影響を与えない
同じ点数しかつけない者も、平均値そのものをずらす事にはなるが正規分布の形は歪めない
つまるところ上記の前提が成り立つ場合には、平均値の分布は厳密に正規分布になる
毎回1点で、たまに4点をつけるような人が大量にいないと、この評点と言う平均値分布を正規分布から歪めるのは難しいように思う >>202
多分、画像データを深層学習(ニューラルネット)で学習することを念頭に置いてる話だろう。
もっと広い文脈で使えるときもあるがたいていは画像でうまくいった話を誇張して言ってることが多い。 >>205
平均値についても同様の事が言える
仮に評価する側が同じだとしても
店舗の特徴によって分布の形は変わる
分布の形を見る事で店舗の特徴を把握してその店を利用するかどうかを事前に利用者が判断できるようにするサービス
が本来目標としたものかもしれない
分布を意図的に操作する事で金儲けに利用しようとした疑いが上がっているという問題だと思う >>207
評価尺度はただの順序尺度で間隔尺度ではないだろう >>159
大規模ですけどC、C++、アセンブラです。
現在、全部で数百万ステップです いかん、ラーメン屋の得点とスイーツ屋の得点を合わせて平均するとか謎なことをしていた
改めてデータに立ち戻ろう
3.6にピークがあるのは、とりあえず4に入れておこう層が2/3くらいいて、残りの1/3がとりあえず3に入れておこうということ4*2/3+3*1/3=11/3=3.67で説明できそうだ
逆に言えば、ここにピークが立つのは「とりあえず3か4に入れとけ層」が一定数いるということで、これは直感と合うのであまり怪しくはなさそうだ
次に3.8にギャップがある理由を考えてみる
元のデータを見た所、2つのガウス関数の和で表現できそうだ
一つは平均3.6で3σが0.3にあるピーク、もう一つは平均3.75で3σが0.05のピーク
こう仮定すると3.8にギャップができているのは、この2つ目のガウス関数の裾野に原因がある
この2つのガウス関数が意味するところは
ラーメン屋に通う「オヤジ層」とスイーツ屋に行く「レディー層」の違いを表すのか、
あるいは「関東に住んでいる層」と「関西に住んでいる層」を地域差表すのか、
はたまた疑惑の「操作されていない層」と「操作されている層」の人為操作の違いを表すのか
ラーメン屋だけの分布、特定地域だけの分布は作れそうだが、疑惑の操作に辿り着くのは難しそうだ 操作がなかったという帰無仮説を棄却できるかどうかじゃね? >>202
まぁ>>208でも言っているけど画像をCNNで処理することを汎用化して言ってる気はするなぁ
少し古いけど
https://deepage.net/deep_learning/2016/11/07/convolutional_neural_network.html
にある
CNNはこういった特徴を抽出するための検出器であるフィルタのパラメータを自動で学習していく
ということなんだろう
RNNでも同じ話はあるので画像だけってことはないけど、なんでもかんでも特徴量を自動抽出ってことではないよ 三層のニューラルネットワークでは xor を分離できないという問題は
さらに多層になったことで何で解消されたの? 3.8を超えた評価を3.6に落としてるって仮定したらほぼ同じヒストグラムになる
https://i.imgur.com/NrNIWrn.jpg
平均3.8標準偏差0.5で正規分布を生成して、3.8を超えた評価値を90%の確率で平均3.6標準偏差0.01の正規分布で取り直す操作をした(N=1000)
ただ同じだからと言って>>212のように元データの特徴量ごとの性質の違いを反映しているだけかもしれない >>213
操作がないという帰無仮説について仮説検定の方法で検証するには操作がない場合の点数の理想的な分布を知っていなければならない
その理想分布に基づいて実際の分布がどの程度ずれているのかを確認するのが仮説検定なのだから
しかしそんなもの知り得ないので検定のしようがない >>215
出来ないのは2層
3層にすると一度高次元空間に写してからシンプルな境界で分離出来る >>208
>>214
ありがとうございます。ほぼCNNのことと思って良さそうなんですね
CNNが凄い!っことを深層学習という言葉に拡大して凄い!って言ってるイメージですね >> 215
細かいけど、まず層の数え方から
入力層は層に数えないので、ANDとORは1層で、XORは2層で表現できる
次にXORはなぜ2層で表現可能か
単純に、AND(正確にはNAND)とORの出力をANDで受ければXORが作れるから
ググったら以下のような図を見つけた
https://www.infiniteloop.co.jp/blog/wp-content/uploads/2017/12/XOR.png
>>218の回答はエレガントだけども、少し説明を加えると
(0, 0) → 0
(0, 1) → 1
(1, 0) → 1
(1, 1) → 0
を分ける直線は2次元平面内では書けないけど、3次元に拡張して
(0, 0, a) → 0
(0, 1, b) → 1
(1, 0, c) → 1
(1, 1, d) → 0
を分ける平面はa,b,c,dを適当に決めれば作れる(例えばa=d=0, b=c=1としてz=0.5の平面)
a,b,c,dを適当に決めて分離できるってそんなんアリかよ!?って最初は思うかもしれないけど
そんな純粋な気持ちは最初だけで、どうせa, b, c, dは見ないし分離できたら何でもOKになる 二層あれば大抵の関数は模倣できるのに
何でもっと多層が必要なの? >>217
諦めたらそこで試合終了ですよ
目の前にヒントが転がっていても見えなくなる >>218
線型結合してる層を増やすとなぜ高次元になるのかを直感的に判るように説明して >>221
層を増やす方が効率が高い
ニューラルネットの近似能力は層を増やすと指数的に向上するが、中間層のニューロン数に対しては多項式的にしか上がらない >>223
一旦中間層のニューロン数だけの次元を持つ空間を経由できるから >>225
線型結合して関数を通して
また線型結合して関数を通して
の繰り返しでなぜ高次元になるの?
関数によって非線形になるなら判るけど >>226
非線形な活性化関数噛ませるでしょ普通
自然に高次元になるんじゃなくてそうなる様にしてるんだよ、ニューロン数は自由に決められるから ディープキスのほうがいい!
舌をからませるの
立つよね! >ニューラルネットの近似能力は層を増やすと指数的に向上するが、中間層のニューロン数に対しては多項式的にしか上がらない
こんなことを示した論文などない。
よくこんなことをさも証明されたことの如く言えるな。 >>221
本質的な質問が来た
これについては俺も明確な答えは持ってないなぁ
直感的には、多層の方が中間層に保持できるパラメータ数が多く
そこには活性化関数を通した非線形の効果も含まれているので
ほどほどにノイズが消されていて抽象的な状態を保持できるから
と思うんだが、本当かどうかは分からない >>229
Montufar, Guido F., et al. "On the number of linear regions of deep neural networks." Advances in neural information processing systems. 2014.
NIPSの論文だが
何を根拠に「こんなことを示した論文などない(キリッ」なんて言えたのか >>226
ちょうどいいので>>220で示したXORを例に説明しよう
入力が2次元である(x1, x2)を拡張して3次元の(x1, x2, x3)にしようと思う
つまり
(0, 0, a) → 0
(0, 1, b) → 1
(1, 0, c) → 1
(1, 1, d) → 0
が出来て(a, b, c, d) = (0, 1, 1, 0)を設定できれば、平面z=0.5で2つの領域に分離できる
すなわちx3をx1, x2から作れれば良いので
a = w11・x1 + w12・x2
b = w21・x1 + w22・x2
c = w31・x1 + w32・x2
d = w41・x1 + w42・x2
として(w11, w12) = (1, 1), (w21, w22) = (1, 1), (w31, w32) = (1, 1), (w41, w42) = (1, -1)のような重みを設定する
a, b, c, dの式をよく見てみると、これは2個のニューロンを1層分増やした式そのものである
つまり層を1層増やすということは、次元を増やすことと同値である >>226
ちょうどいいので>>220で示したXORを例に説明しよう
入力が2次元である(x1, x2)を拡張して3次元の(x1, x2, x3)にしようと思う
つまり
(0, 0, a) → 0
(0, 1, b) → 1
(1, 0, c) → 1
(1, 1, d) → 0
が出来て(a, b, c, d) = (0, 1, 1, 0)を設定できれば、平面z=0.5で2つの領域に分離できる
すなわちx3をx1, x2から作れれば良いので
a = w11・x1 + w12・x2
b = w21・x1 + w22・x2
c = w31・x1 + w32・x2
d = w41・x1 + w42・x2
として(w11, w12) = (1, 1), (w21, w22) = (1, 1), (w31, w32) = (1, 1), (w41, w42) = (1, -1)のような重みを設定する
a, b, c, dの式をよく見てみると、これは2個のニューロンを1層分増やした式そのものである
つまり層を1層増やすということは、次元を増やすことと同値である 五、六層でいいのかと思いきや
ものすごく多層にするよねえ
うまくいくからという説明しかないのか? >>221
〉二層あれば大抵の関数は模倣できる
その『大抵』とは、どの程度なんですか?
それが示されてないのですから
まったく意味をなさないですよね?
>>230
その意味をなさない書き込みに、
本質的とかって、
レベル低すぎですね。 >>235
完全な関数の導入じゃなくて疑似的な関数が解ればいいから >>235
あんたは性格悪いなぁ・・・
ニューラルネットワークの普遍性についての質問が本質的でないなら何が本質的なんだ?
知ってて聞いてるなら教えてやれよ 専門的な知識はほとんどなく説明されても理解できる頭も持ってないけどマウントとりたいからとにかく突っかかる癖のある人が多すぎる >>232
それだと
x1, x2の入力を受けるニューロンと
それからx3を計算するニューロンを並列に並べたら良い
x1-x1\
x2-x2-out
\x3/
みたいに
次元を増やすの意味として変数増加とx^2などと混同しやすい
これらを区別する言い方は何?
変数増加→高次元
x^2など→非線形
とか? 前に『ゼロから作るディープラーニング』買ったけど
これ3千円はする高額な本だけど、計算や式の意味がわからず挫折したなあ…。
やっぱノートに書いて解き方や意味を学習するしかないと思うねん。 >>241
ならば『excelでわかるディープラーニング超入門』がオススメ
続編もある >>241
あの本は線型代数と微積分の知識は必須だと思う 機械学習に数学はいらないよおじさん「機械学習に数学はいらないよ」 適当にデータ放り込んで適当な手法を選択してなんとなく精度が良さそうなのを選ぶだけで成立する仕事なら数学など不要
普通の企業や研究室ではそんなものに金なんて出してくれないがな >>247
そういう仕事は既にAutoMLに取られつつあるね >>240
並列に並べるために(x1, x2)からx3を作るための層が最低1つ必要なんだ
0か1かのような2値分類は、つまるところ出力層と全く同じ出力をする新しい次元を作って、その次元に直行する超平面で分類する作業なので
言い方は高次元や非線形で良いと思うけど、次元についてはニューロンの数が、非線形については活性化関数が深く関係している
もう少し詳しく説明しよう
より一般的な関数があったとして、入力が(x1, x2)のとき、最後の出力層への入力としては
(f1(x1, x2), f2(x1, x2), f3(x1, x2), …, fN(x1, x2)) … (1)
となっている
Nは最後の隠れ層のニューロンの数なので、次元と読んでいるのはニューロンの数だということが分かる
(1)を如何にして作るのかが重要になり、層を深くして(1)を作らなくても、ニューロン増やせばいいんじゃね?となる
隠れ層1層と出力層1層の2層あれば大抵の関数は模倣できると指摘している>>221はかなり鋭くて実にその通り
それでもなんで層を深くするのかというと>>224の効率が良いというのが一般な回答なんだが、Deep Learningを回している人なら実感があると思うけど、第一層のニューロンの数がある一定数ないと学習がうまくいかないことが往往にしてある
単に層を深くすればよいというのは明らかに直感と異なり、そうすると「どの層にどれだけのニューロンを配置すると良いか」という問題になり、これに対して自分なりの回答はまだ全然持っていない 最初から土方しかいないから。
今もほとんど土方。
できる人は研究者か大学教員になってる。 この分野はむしろ大学より民間の方がやりやすいから本来なら博士行くような人も修士までにしてとっとと成果出せる環境に移ろうとする人が多くなってきた印象 今ならまだ簡単にデータエンジニア目指せるけど、
早い者勝ちなのかな
すぐベテランにしか仕事がこなくなるよね >>241
あの本のレベルの数学が分からないと厳しい
数学が分からないと言いながらDSやってる人たちでも理解できる程度の内容 博士持ち or ベテラン < 精度の高い競馬予測モデル開発者
データを集めてくるところが始まるから、Kaggleより難易度高い 博士号持ちといってもピンキリ
天才的な人もいるし、
とんでもない馬鹿もいる。
2、3枚の感想文のようなレポートで
博士号取れる院も
日本にある。
そこは博士号とりたい中国人ばかりが
留学生としてやってくる。
日本の恥! >>258
知り合いが現在
そこの教員やってるので
大学名は書かないけど
博士論文は国会図書館に
全て収蔵されるので
みればすぐわかる。
ヒントとしては、
なんと中国語でレポート2枚ぐらいの
博士論文がある!
日本の恥!
抹殺したい! ディープラーニング発明した人に
ノーベル賞やるべきだと思う。 そんな人おらん
ローゼン・ブラッドからはじまって(もっと前から遡れる?
カナダ人のチームがドロップアウトを考えた時点で弾けたんだ メダル獲れなかったkaggle用のnoteをgithubに載せてしまった。はずかしー
これで就活だあ〜。おーッ! チューリング賞は賞自体よりも取ってる人のがたいてい有名っていう。。 競馬予想みたいにデータ収集含めて特定の領域に特化したモデル作れる人だけが勝つようになるかね、、、全く潰しのきかない職業になりそうですね。 ゲームの自動生成やりたいから勉強してるけどそういう職業目指してない 統計学で競馬で食ってる人いる見たいよ
10年くらい前に聞いた話しだけど 統計学やらなくてもきちんと研究すれば勝てるらしいけど
才能の使い方としては空しいな 控除率25%の競馬で勝とうとするならもっと楽に勝てるとこに注力した方がましやろ FXより競馬の方が百倍楽でしょ
勝つために必要なデータを取れればだけど >>221
層が多いほうが表現力が高い
教師データ数に対して異常に多いパラメータは、なんで性能が伸びるかよく分からない。
パラメータの中にはあたりくじがあるのかもという、宝くじ仮設なるものがあるけれどどうなのでしょう? テーブルデータの解析って、nnをつかっても2層や3層だから、ぜんぜんdeepじゃないよね
営業の人はそれでもディープラーニングっていうんだろうなあ >>221
深くする程損失関数が凸関数に近くなり最適解に辿り着きやすくなるかも知れないことが最近の理論研究で判明してきている 層を増やすと普通にバックプロパゲーションだけでは上手く学習できないんじゃね
どうするんだっけ ドロップアウトって
実際に人間の脳でも行われているのでしょうか? インドのリキシャの話は知ってるか?
人間は一度認識すれば多少形は違ってもリキシャだとわかる
おそらく人間は逆で、学習したデータを柔軟に他の認識の補助とすることができる kerasで作ったモデルをtfjsで読み込んだんだが
訓練してたときのinputがnp.arrayみたいで
tfjsでpred出来なくて積んだんだが(´・ω・`)
numjsとnumpyって同値じゃないよね?(´・ω・`) >>287
当たり前のことすぎて
どう反応していいかわからんよ。
どういうレスが欲しかったの? >>286
どうだろうね
短期記憶が長期記憶に移るときに、移らなかった記憶はドロップアウトされたと考えられなくもないかなぁ >>292
ドロップアウトは過学習を抑制するためにやるやつだし
記憶の結び付きとは違うだろ >>286
可塑性を示すものは発見されてるけどシナプス伝達におけるフィードバック機構は見つかってない
神経回路で見ればフィードバックの投射は当たり前に存在するけどそれでは誤差伝播にはなり得ない 一度見た画像をぼんやりとしか覚えてない、という奴はドロップアウト臭い
だから>>292には個人的には賛成できるんだけど
ただ長期記憶が短期記憶うんぬんはリカレントNNを連想するから
このスレ的にはわかりにくいわ >>295
>一度見た画像をぼんやりとしか覚えてない
そもそも観察メッシュが雑(現物→キャッシュ的なところ の時点で情報がだいぶ落ちてしまう)なヤツの場合・・・ BPの話かと思ったらdropoutの方だったすまん
そっちに関連するものは知らん mnistのデータをインストール出来なかったから
直接.npz型データを落としてきてこれを.kerasのdatasetsフォルダに入れたら
使えるようになった
こういうのは邪道なのか きみたちSparkとかHadoopとか使ってるの?
深層学習の理論の話しは出るけども Sparkは競争に負けたシステムだし、Hadoopはゴミ hadoopなんてまともに使おうとしたらgoogle並みの回線チューニングが必要なんでしょ? ググってると、ときどき尾崎隆のブログが検索結果に出てくる。
みなさんもご存じ(?)の、
「渋谷駅前で働くデータサイエンティストのブログ」というやつ。
名前を公開して堂々とブログを書いているのであるから、
間違いがあっても、実名でよく書いた!ほめてあげよう。
だって、5chなんて匿名だから批判とか妬みとか罵詈雑言ばかりだもんな。
尾崎は偉いと思う。実名で書いてるから。
ちょっと自信過剰すぎて、ブログの間違いを見つけるたびに
笑えるけどそれもまたいい!
尾崎はいいやつ!
これからもブログをどんどん書いてくれ! >>302
> きみたちSparkとかHadoopとか使ってるの?
使っていない。
仕事でAzureとAWSを使っていて
もはやHadoopとか必要ねーじゃんとか思ってる
何か使う理由がある? オンプレ環境でリアルタイムのビックデータ解析やりたいシチュ
データ容量は1TB程度……あんまりないよね 使いまくるなら圧倒的にローカルで環境構築する方が安いし自由度高いからな
クラウドコンピューティング万能説を説いている人を見ると「それで十分な程度でしか使っていないんだな」という感想しかない 安さは開発費込みで圧倒的ではないだろう
自由度は同意 クラウド万能とは思わんが数百GB単位でボコボコ組むならまずクラウドで組んだ方がいいと思うがな。
自前のオンプレで組むならかなり正確な見積もりないと怖いわ。 最近は大手メーカーがオンプレのGPU買うケースが増えてる
彼らはアンチクラウドだから絶対使わないし
データを外部に置くことを極端に嫌う あくまで自分の肌感覚だけど、最近そういう風潮もなくなってきたというか、
コストカットで見境がなくなってきた印象がある
日本は海外ほどクラウドの導入が進まないけど、そのうち一気にくるだろう kerasの経験ばかり増えたが、いきなり生のtensorflowのコードを見たりchainerを見せられたり
日々勉強だなあ
データセットもある日はnpzある日はpkl セキュリティというよりデータを抜かれるのが心配
特に画像処理 >>320
word2vec一択とはどゆ意味なのかわからんけど、
それだけでは人と会話できないじゃん? >>319
データを抜かれるのはセキュリティの脅威の一つ クラウド=情報漏洩の可能性が高いわけではなく、
社内のアナログ上司の承認が降りないんだろう
データセンターと国内の一般的な企業のセキュリティの堅牢性を比べたら前者が勝ち データ解析事業なんて当たればデカいけどリスクでかいし、
マイナス査定が通常の企業じゃ社員はやりたがらんだろうね。
クラウドにデータおきたがらないのなんてわかりやすい大企業病の例だわ。 セキュリティ万全と言いながら音声認識の音声データを勝手に社員が聞いていたりという事例もあるわけで
物理的にデータが相手側に置かれる以上はいくらでもこっそり悪用できるし内部告発以外でそれに気付くことは不可能だからな
扱うデータの性質にもよるが大企業ならすぐ炎上し得るので慎重になるのは当然だろう クラウドとローカルと、うまく使い分ければいいだけの話
言語論争と同じで、その仕事に適しているものを使うというだけの話 個人的に、ローカル側を勉強するコストは別のことに回したいかなあ… 中小でローカルサーバーを利用したがるのは、
社員たちのITに対する理解度が底辺で、データをネットに接続しただけで、
情報漏洩のリスクが発生するからだったり…
奴ら、機械学習用のPCにwinny入れちゃうとかデフォだから ほとんどの場合、上の自己保身のために下にサーバーメンテのコストを押し付けてるだけだがな。
だから仕事がスケールしねーんだよ。 良く調べもしないで、"クラウドは怖いから駄目"とか言っちゃう上司か
でもいつかは海外の流れに追随するんじゃないの このスレにデータ基盤エンジニアはさすがにいないか?
データ基盤回りの技術もなかなか難しいっすね
ご多分に漏れず技術の移り変わり早いし データ基盤はNTTデータであっても
ぐちゃぐちゃになってますね。
データ分析が始まって、
何もわからないところから、
その時その時に良いと思う方法で
構築して結合するので、
現在は、もうそれはそれは恐ろしい
暗黒構造となってます。
資料を作るひまもなく付け加えるので、
資料無しのぐちゃぐちゃです。
終わってます。 オートエンコーダについて質問です
計算の負荷を考えないことを前提の場合
層の深さは深いほど良い(もしくは損をすることはない)の理解であってますか? >>335
深すぎるとoverfittingする可能性がある >>335
いいえ、違います。
オートエンコーダを使って何をするのかにもよりますけど、
結局のところ次元圧縮を「適切に」やりたいわけです。
基本的には中間層から取り出した「圧縮」されたデータを
分析に利用するわけですから、
その分析として実現したいことによって、
「適切な意味が残存している」データを中間層から
取り出したいわけです。
よって適切な層の数はやりたいことによって変わります。
ただ、オートエンコーダの応用はいろいろ発展中ですので、
どういうことをやっているのか具体体に書いていただければ
よりよいアドバイスができると思います。 >>336
返信ありがとうございます
オートエンコーダは入力と出力が同じだから過学習とかは考えなくてもいいと思ってたんですがそうでもないんですか? > オートエンコーダは入力と出力が同じ
原始的なNNとして使ってるだけなんだな
しかし入力と出力が同じとはどういう意味なんだ? >>338
教師データだけ丸暗記して、テストデータは復元出来なくなる データサイエンティスト名乗るやつって
みんな馬鹿だと確信できたよ >>337
すみません。お返事もらってたのに見逃してました
本で理論を学んでいてオートエンコーダの層の深さは多い方がいいのか少ない方がいいのか書いていなかったので、知識浅いのに質問してみました…
適切な意味が残存するようにということで一歩ですが少し分かった気がします。具体例を色々見てみたいと思います
>>340
>>339
教師データ入れて教師データで評価するとか考えてしまって書き込んでしまったのですが、教師データとテストデータはありますよね、ありがとうございます ディープラーニングが流行ってから
汎化性能ってあんまりうるさく言わなくなったよね
SVMあたりのころはやたら言及してたのに DCGANによる画像生成について質問。
色んな文章の画像データを学習させたら
LSTMのように画像データとして、文章生成は可能ですか?
あと、4コマ漫画をDCGANで学習させて
意味のある4コマ漫画を生成することは可能ですか? >>344
どっちもはげしく調教師の腕前次第。
不可能ではないだろう。 そもそもクラウドはテクニカルタームじゃなくて単なるマーケティング用語だったよな?
AIと同じく結局はビジネス界隈で流行れば官軍ってことか >>344
不可能とは言わないが、出来たらトップカンファレンス通るレベル >>344
難しいとは思うがやってみたらいい。
なんでもチャンレンジしておくと、
どゆのが難しいのかわかってくる。
人にとって意味のあるものを生成するということが
どれほど困難かわかると思う。
不可能と思えることにチャレンジすることを
無駄と思うか、勉強と思うか、馬鹿にするか、
それは人それぞれ。
やらないでおいて、
「できやしないよ。」
「それ不可能だから」
「それ単なる判別だから」
なんて批判するのは簡単。どんな馬鹿でも低能でも言えること。
何を言われようとチャレンジするのがいいと思う。
あとあと財産になると思う。 https://github.com/NVlabs/stylegan
V100を八枚使って3日って世界だけど頑張って!
(ちなみにアマゾンだとこれで約20万円だけど。) >>347
勝てばという枕詞がつけばそのような含意になるが、この場合はそうではない
そもそも論ズレだよ で、クラウドって言葉がビジネス界隈で流行って何が官軍なん? >>325
正規アクセス権限を持つ人の管理を自社でできない
正規アクセス権限を持つ人だからその気になればアクセスするのは容易 >>337
オートエンコーダによる次元削減と
主成分分析による次元削減とは
どんな関係?
条件が揃うと両者の結果は一致する?
どんな条件でとか判明している? 最近の手法でもネットワークの一部にオートエンコーダーが使われていたりはする どんな奴?
ビッグデータ言うけど
中身的にはknnになってそうで怖い
どの程度未知データに対応できるのか知りたいのに 主成分分析は軸を決めて絞っているイメージ
オートエンコーダはなんとなく絞っているイメージ ディープラーニングで星空を学習させて、星空の画像を生成させようとしたら
ノイズのような糞画像が生成されたというツイートです。
https://mobile.twitter.com/aki202/status/1185695506703384576
どうしてこうなったの?
原因を調べようにも、ブラックボックスでわからないのでしょうか?
https://twitter.com/5chan_nel (5ch newer account) >>360
星空全体の学習(dcgan?)はむりでないなかあ なにの特徴量をとらえたら良いのか分からない
星、山一つづつを学習して 何らかの方法で合成するとか やってみた系
Qiitaにありそう
何でこういうツイートをどや顔でするんだろう
高度なことをしているアピール?
実際は無知を晒してるだけなのに。。。 >>366
やってみた系やQiitaの記事書くよりもツイートする方が楽だからだろう 所詮はバカッター
失敗や無恥を曝す方がリツイートも良いねも増える世界
アフィ厨と一緒でフォロワー増やす目的
相手にするとつけあがる IT系は客の懐具合で予算が決まる
衰退する業界を客にしてると共倒れだ >>366
既存の事例や良書の下位互換でしかなくても記事にまとめることで理解が深まる
別に君に見せるために書いているわけではないので興味がないなら黙って閉じればよい
「何でツイートするの?」とか言ってるだけ時間と労力の無駄だろう 何で公開すんの?
見て欲しいからでしょ?
注目を浴びたいんでしょ? 何で公開したら駄目なの?
見なければいいだけでしょ?
注目しなければいいだけでしょ? VOTTを使ったアノテーションで
ver1では動くがver2で全然動かないなあ
タグの設定ができない
Win上で作業
exeファイルでインストールしたが、ソースからやった方がいいのかな ヽ人人人人人人人人人人人人人人人ノ
/ ̄(S)~\ < >
/ / ∧ ∧\ \< 嫌なら見るな! 嫌なら見るな! >
\ \( ゚Д,゚ ) / /< >
\⌒ ⌒ / ノ Y´`Y´`Y´`Y´`Y´`Y´`Y´`Y´`Y´`Yヽ
)_人_ ノ
/ /
∧_∧ ■□ ( ))
( ; )■□  ̄ ̄ヽ
γ⌒ ⌒ヽ  ̄ ̄ノ ノ
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄| むしろ自分からわざわざ見に行って「俺の気に入らないものを書くな!」と騒いでるんだよなあ
嫌なら見るな、以外の何物でもない >>375
アドバイスももらえてるようだし公開したメリットを享受してるっぽいが
何が気に入らないのかわからない そもそもTwitterは個人のつぶやきに過ぎないしブログは単なる日記だ
別に君に有用な情報を与えることを目的としていないのに何勝手に期待しちゃってるんだろう >>378
AVの撮影現場に乱入して「僕、童貞ですから早く服を着てください///」って真っ赤になる感じ YouTubeでpvだと思って見たら
素人のカラオケだったときの失望に似ている
上手いなら感心してみるけど
ド下手が上げてんじゃねえよ、と tensorflowでmnistを99%くらい当てられるようになった程度だと
機械学習のお仕事の最底辺辺り?
仕事で機械学習ってどの程度の難易度か全然イメージつかない ここは機械学習の最底辺どころか
知ったか素人のたまり場だから質問されたって答えられないよ >>387
機械学習案件の未経験者の採用指標って、
マトモなところだと大学の学部と専攻、
SESのようなアホ営業が間に入る商流だとPythonの経験年数 みたいな感じ?
作業の大半は前処理とデータクレンジングだから後者でも間違いでは無いが >>387
mnistは簡単すぎてベンチマークにならない
その程度で十分なこともあるけど、データの素性を理解していないとどうしようもないこともある >>387
tensorflowだと機械学習でなく深層学習だな
まあ自分でデータセット作ってそれから区別出来るように学習させました、というのが大事だな >>387
未経験で機械学習の仕事掴みたいならkaggleで結果出してアピるのが早いんじゃないか
早いつっても一朝一夕じゃいかないけどな
色んな機械学習のタスク解いてみ
あと勉強して理解したことを客観的な指標とともにちゃんと表現するといい mnistを高精度で当てるモデルができたとしてもネット上の他人の知識を寄せ集めただけで理屈はよく分かっていないのか、
何らかの根拠に基づくモデリングを行って精度が上がった(=高精度の理由を自分で数学的に説明できる)のかで全く異なる
前者であればそんな人間は山ほどいるので何の自慢にもならない >>387
就職することを考えているなら知識の移り変わりが少なくて派遣が蔓延してなくて年寄りが居るところにした方がいいだろう
中国の殺し屋が下請けを雇って5次請けまで行って3000万の案件が末端で150万になり
「150万で殺しなくない」ってことで死んだフリした写真を送って終わらせようとしたニュースが出てて
それ日本のIT業界じゃねーか!突っ込まれてたけど
こんな構造が当たり前になっているところもちょっと mnistはもうこれ以上あげても過学習でしかないだろう。
あれ、人間も判別不可な数字もまじっているし、
あえて業務で使うなら「判別不可」を割り当てるのが正しいデータが結構ある。 発注元の社内における地位によって、そこらへんの閾値の調整が違うんだよなあ
発注元が閾値に対して責任を負っている人だと、閾値を調整する機能を持たないシステムの方が好まれる
実務経験がある人にしかわからんだろうけど 将来この分野の仕事したかったら、ゼロからはじめるのフルスクラッチの内容理解するのって意味あるのかな
そんなことに時間使うならテンソルフローとか使ってモデルを多く作った方がためになるのか… ゼロから作る方がためになる。あなたの年齢にもよるけど
kerasのいま使われている関数は、量子コンピュータですべて吹き飛ぶから >>399
ゼロから読んだけれどもpythonが量子コンピュータを扱えなければ仕組みを解っていてもキツいっしょ >>398
意味はあるがあれはソースコードがヘンテコな副作用を仮定したつくりになってて好きじゃない。 >>397
くだらん社内政治によってデバッグしずらくなるパターンだな。
あんまりそういうところから機械学習の仕事はしたくねーわ。 ゼロから始めるなんて集中すれば1週間かそこらで終わるんだからtensorflowもどっちもやればいい
所詮は超初心者向けの入門なんだから 逆に初心者向けでない機械学習を扱ってる本って何か知っていたら教えて欲しい
中級以上、実務レベルって言っても差し支えないやつ
わりと超初心者or初心者を対象にした本が多い気がする
本でなかったら、サイトとかでも DLフレームワーク操るのどこまで突き詰めりゃいんだろ
なんか水ものの知識に思えるんだよな
とはいえ定番は定着してきてるか
他に覚えなきゃいけないこともたくさんあるし >>377
自己解決
タグを入力してからenterを押してタグ名確定
これだけw >>400
いや、さすがに量子コンピューターうんぬんはもののたとえだけど
勾配ブースティングが出てきて業務が変わったように
ツールの知識は流行り廃りが激しいから、深いところで知識や技術を蓄えないと
エンジニアとして時代に押し流される >>405
理論の中級レベル以上書籍ならPRMLとかカステラ本があるだろうけど、
実務に沿ったMLノウハウを凝縮した本ってまだ出版されてないんじゃないか
コードレベルのものならkaggle漁ればあるだろうけど >>405
機械学習に限らず中級以上の本、サイトは需要が少ないので発表されることが少ない。
あえて言えば、マニュアルが中級向け、論文が上級向け
ただし論文はうそも多い うそ おおげさ まぎらわしい
論文撤回数ランキング上位10名のうち半分が日本人 >>405
実務レベルの機械学習の知識なんて企業秘密だらけなので公開されるわけがない >>416
やること次第っそ
ひとくちに「ターゲットは言語だ!」といっても、
1バイト分かち書き文法カチカチの場合と
2バイト文法なにそれおいしいのカオスの場合では
必要な知識の量が全く違ってくる品・・・ さすがにそろそろ機械学習でなんとかするみたいな馬鹿案件はなくなってくるだろうな。
それくらい焼き畑したと思うよ。 そうだ!星空(ランダムドット)を学習させれば星空(ランダムドット)が生成されるんじゃないか!? >>404
chainerもpytorchもやれ。 ランダムドットを入力して星空に変換出来たら面白そうだなあ 単一画像からのスタイルganみたいなやつが
まさにコピペ自動機だった >>422
星空は、まったくランダムじゃなくて
けっこうな粗密のむらっけ&見た目の大小(明るいくらい)があるから、
テキトーに1dotの点々を何個かうってもらった画像を初期値として
そこから準備しておいた数式でごにょごにょーごにょーして
適度に粗密と大小をつけた星空ふいんきの画像を出す。
っていうのつくったら、
カネにはならんだろうが
やったったです!デモにはいいだろうな。
機械学習は、
全天サーベイの写真あたりをインプットにして、
「初期値からいいかんじにごにょってくれる数式」を製作するところに使ってくれ。 星団
星雲
天の川
あたりをだしたければ重力シミュレーションも必要 >>426
うーんどうだろう?
天の川を0から現在まで作るには、
「2400億粒くらいの星を撒いて重力シミュレーション」らしいけど
星空っぽい柄を生成しちゃるぞー
程度だったら
天の川銀河(銀河系)のざっくり図・・・星がある確率の地図を作っておいて
あとは地球のどこからみると、どっちがどんだけみえるー
くらいのデータがあれば
ええんでないのかなー
入力も、
dotをいくつか打ってもらうんじゃなくって
メルカトル図的な真っ黒四角の中に、
どこか1点でいいような。
季節とか時刻はめんどうだから春分の夜@ロンドン固定とかで。
星団・星雲はトッピング的なもんで、
肉眼でもわかるぞー!っていうのはマジ数少ないから、
「星空柄の壁紙つくっちゃる」くらいだったら
とりまホーチでおk。
どーしてものせたいのなら、確率地図に大小マゼラン雲くらいは書き足しておk。 カブリ数物宇宙研、宇宙の複雑な3次元シミュレーションをAI技術で効率化 日米加 共同研究
https://www.ipmu.jp/ja/20190828-AI_model
>宇宙の構造形成過程を瞬時に模倣できる深層学習モデルの作成に成功
>宇宙の始まりの初期条件を復元することも不可能ではない 修士論文で2次元アニメ画像の顔をたくさん読み込ませて
平均顔みたいなのをAIで自動生成するみたいな課題を割り振られたんですが
何から手を付けていいか分かりません
まず顔認識の場合ラスター画像そのままよりもベクター画像に変換したほうがよさそう
(とくにアニメ画像の場合髪色がまちまちぃだったりするので)
と思うんですが詳しい方いませんか?
その場合顔の画像を与えると境界情報をベクトル化して抽出してくれるようなライブラリってないでしょうか
髪型を特徴量として表すのはかなり難しいとおもってるので
まずは顔全体の外接円、あごからほおの輪郭、目の位置、鼻の位置 あたりをベクトル化して
大量画像をディープラーニングで流し込んで顔データを自動生成して
髪型だけは既存のものを適当にあてはめて可愛い画像ができました
あたりをおとしどころで論文にしようかなとおもってます
機械学習は大学の講義レベルの知識しかないので
それじゃあだめだろとか改良点とかあったら
みなさまのプロのご意見をおききしたいです 「平均顔みたいなの」というのがよく分からないが、あなたの考えるベクター画像に変換するメリットをもっとkwsk >>432
ラスタをベクタにしてやんよ!系ソフトは
それだけで高額販売されてるレベル >>433
かわいいとおもった画像の特徴を平均化すれば
万人受けするもっとかわいい画像が作れるんじゃないかっておもってますが
そこは別に商業じゃないので結果うまく行きましたでも修論レベルなら十分かなとおもってます
あとラスターだとかなり周辺広く見ないとどこの部分なのか認識するのが難しいから
特徴量が多くなりすぎてかなり深いニューラルネット組まないと
そもそも顔として認識するのが難しいんじゃないかっていう印象です
見当外れだったらすみません
>>434
そうなんですね
リアルの写真は難しそうですが
2次元アニメ画像ぐらいなら境界周出するのってそんな難しくないかなと
なんとなくおもってました
そこがすでにすでに難しいなら
大量の画像の顔部分だけ手動で輪郭や目とかをトレスして
そのペンのストロークを座標に記録してベクトル化するようなプログラムを作ってから
そのベクトルに対してディープラーニングを行ったほうが良さそうですね
アドバイスありがとうございます >>435うえはんぶん
('A`) おう べんきょうもっとがんばれよ
>まんなからへん
ラスタ画像っつか写真の顔認識は、ぐっぐるが結構昔から販売してるぞ。
それとはたぶん独立に、
近頃のプリクラマシンの
デブスだって日本人受けしやすくカワイい方へガツンと盛ってくれる補正技術はすごいから、
カワイイをきわめるつもりなら、
勉強する価値があるとおもう。
>したからにばんめ
二次元はいわゆる人外カラーの髪や瞳の色が壁になると思う
まぁがんがれ
>いちばんした
機械学習くんを調教できるほど手を動かすなら
努力したで賞で修士・・・でるのか・・・・・・?
理学じゃ努力しまくってても失敗データじゃ修士でないんだが。 >>436
販売なんですね
有名なんだったら普通に研究室で買ってそうなのできいてみます
>プリクラマシンの補正技術
調べてみます!
> 二次元はいわゆる人外カラーの髪や瞳の色が壁
そうなんですよね
3次元用の顔認識アルゴリズムをそのままラスター画像に適用して
うまく肌以外の色相自由度を認識してグループ化してくれるか分からないです
いろいろアドバイスありがとうございます! 修士なんて何やっても貰えるよ
お前大学院行ってないだろ 機械学習を就職に使うなら、修士論文がんばらないといいところ行けないぞ(哀しい目)
論文適当にすませてKaggleがんばってもいい気がするけど 就活段階で修論の全体像なんて全然見えていないだろうからなんとなく立派そうなテーマとそれっぽく説明できる話術があればOK 修論レベルでちゃんとした成果を出すのは不可能に近い
何かをやったということにしかならない
研究で成果を出すことはものすごく大変 >>437
どこの研究室でもライセンス買っつるであろう、Officeみたいなものじゃない件。
しっかりパッケージされて売ってるわけではないぞw > 顔認識システム
>色相自由度を認識
人外カラーの髪や瞳だけじゃなく、
スキンカラー問題だの、
いわゆる色トレス線を境界だと誤認識するだの、ありそうだぞ。
インターネッツに、日本語で、
自分で顔写真を顔写真だと認識するプログラム組んだったw
↓
黄色人種以外に非対応な人種差別っぷりよ…(´・ω・`)
↓
改良したった!
っていう話をのっけてくれてるブログが転がってるはずだから
がんばってしらべろ。
二次元絵じゃないほうの、
リアル写真からの顔認識については、
おさえておくべき特徴点とか、
年齢・性別・人種を分類するためのポイントとかまでもう研究されてるから、
そっちをしっかり勉強してから、
二次元に挑んだ方がいいのかもわからん。
あー
続きは宿題スレを占拠されても困るんで
指導教員なり同様の課題をやってる先輩にききんしゃー >>439
なにやってても押し出し(追い出し)てもらえるなんざ、
戦前から平成一杯くらいまで続いてた研究室(たぶん200人以上卒業生がいる)の中でも
1名しかいないレベルの
特大ハズレ大馬鹿うんこ野郎だけの特権だw
>>442
そんなに枯れちゃってるのこの業界?
おれは正直いって結構オワコンな分野の所属だったけど
学部で配属後最初の1か月分のデータでレター書いて、
学部の残りのデータあわせて1報書いて、
修士で全く違うジャンルだけどやっぱもう廃れてきてる分野に引っ越して
1から?勉強しなおしになったけど、
(こっちはハゲタカとまではいかないがまずまずのマニアック誌にしか載らなかったが)1報書けたぞ・・・
博士過程のことと、某大職員時代については・・・きくなよwwwだけど。。。 新規性はともかく有用性はなあ
大抵有用性はほとんどないに等しい >>438
今wikiで読んだったら
調教開始前の
生写真に求められる要件がすっげ厳しいのなw C言語で画像処理してる会社をクビになって
(その会社に入社する時に、面接官にいわれた方便程度の優しい嘘がささって
バタフライ効果で周りの人間にさっさと会社を辞めた方がいいと諭されまくった挙句、
心が棒人間になって仕事を続けられなくなった。人間関係の板挟みって複雑。。。)
Kaggleちょっとやって、メダル獲れなかったけどいい線いったから
元から行きたかった自然言語処理の方面へ応募してみようかな〜みたいな感じでフラフラしてるんだが
自然言語処理に行きたい!とこっちがいくらいっても、逆求人で画像処理の奴ばっか来るのな。くるなー、くるなー!
やっぱ画像処理の方が簡単に就職できるのかな。それともOpenCVを独学でやっちまったからか >>450
しぜんげんごが不自由ですな。
マ板向けだろその話題は。 >>451
板違い? すまん、感情のほとばしりがやばかったわ >>432
pcaとかautoencoderとか使えるかも
あとはパーツ毎に学習して
パーツ毎に生成したものを組み合わせるとか
パーツの位置、配置や大きさでも変わってくるだろう
可愛いキャラは目の位置が上下中央辺りとか
目の大きさが顔に占める割合が大きいとか >>450
実績ない分野で中途って基本ないだろう
画像とNLP両方やってるとこに画像と抱き合わせでNLPやらせてくれって交渉したら
それでもやらせてくれる確証なんてないけど >>454
だな。別にNLPに固執してるわけでもないんだがアプリでも作るわ
次は失敗しないように頑張ろう 仕事としてはシステム導入のノウハウが一番大事だから残るけど
機械学習の仕事は消えていく運命 >>456
AutoMLで自動化できてしまう程度のことに労力使わず人間でなければ(現段階では)できない高度なことに集中しろというだけのこと
むしろつまらない仕事を減らしてくれているんだから感謝しかない 能力のめちゃくちゃ高いエンジニア以外は淘汰されていくんだな
クラスわけ問題を解いているだけの会社は危うそう 人間が現場作業をしつつアノテーションが同時に出来る(撮影しておいて、
右手を伸ばして目標物体を掴んだ時に左手で数値などを入れてラベリングする)機械を作れば
色んな作業がどんどん自動化されるのかなあ >>461
3Dスキャナとさわるほうの手につけるタイプのセンサーグローブを用意して、
初期位置合わせをがんがれば、
3次元の座標入力と応力(弾性)入力くらいは
今よりはかどりんぐ!になりそうだが、
だからといって
いろいろなんでも自動化ハッピー☆とはならんと思うぞ。。。
そんなことより
3Dプリンタのz軸の動きをもっと精度よくして
積層段差うんとちいさくするなり、
大きめにうちだしておいて自動であとから削って精密に仕上げるテクノロジー
&
シリコーンみたいなエラストマー樹脂を積層するように、素材開発
を
はよ そのうち撮影とアノテーションだけの会社ができるってみんな言ってる
誰も設立したがらないだけで 「未経験の貴方もAI業界で大活躍!」とか言って募集してひたすらアノテーションさせるんだろうな いや、もっと普通の人を集めるんじゃない?
「接客不要。デスクワーク。画像データのラベリング」みたいな求人
接客したくないフリーターが世の中いっぱいいるから人手に困ることはないと思う >>468
撮影地点の座標と、三脚の高さがしっかりきっぱり分かってれば
写真は平面なんだから
自動で空と建物の境界を認識させて
外枠の3D座標起こすくらいは、
いまどきスッとできるんじゃね? 古典的なエピポーラ幾何の問題に機械学習要素を入れる必要はない >>470
撮影地点の座標と三脚の高さがしっかりきっぱり分かってないからスッとできないんじゃね? 素人でも予見できる例外を考慮してないとかカス設計だな >ウーバー車のAIは車道に歩行者がいることをそもそも想定していなかった
小学生が作ったのか?というレベルだな AI技術者ってマジで急激に増えたな
それも大学で体系的に教育されてきたやつが。
まぁ三年もあれば修士くらい量産できるしな >>478
普通なら車側が100%悪いと判決される 人が100%悪くても、それが理由でひいていいわけではない
飛び出してきたときは多少考慮されるようだが
それでも車が無罪にはならない >>481
そして
かつてのバイオテクノロジーバブルと同じように
ピペド(ピペッティング奴隷)ならぬ
機械学習設置するだけの奴隷があふれかえるところまでがセット。 AI土方→(たぶん)最低賃金は守られてるんだろう
AI奴隷→サビ残だらけで実質時給は違法なのが当たり前 必要精度に到達できるかどうかのリスクを請負で抱え込んじゃってる会社もあるらしい。
開発のリスク背負うんだったら販売契約だろ >>487
その条件で請け負っている時点でAI技術なさげ
でも、客も解ってなさそうだから、過学習させたインチキ精度で逃げるか? インチキ精度で逃げる。でもそういう仕事は黒か白かではないから、あながちインチキとも呼べない
たとえば、もともと人間がやっても精度が出ていなかった仕事で
建前上だけ検査しているという話にして、その仕事に関わっているひと皆がおかしいとは思ってるけど
仕事が回らないから誰も何もいわない〜みたいな仕事が世の中にはいっぱいある
そういう仕事を機械に置き換えるような場合、名目上の目標の精度がでなくても
前の精度を実質上回っていれば迷わず開発するでしょ
発注元も、精度が目標を下回っていたところで、見て見ぬフリをする 後そういう会社はAI技術はなくても
ほかの技術をしっかりもってるからエンジニアとしてはむしろ一般より格上 >>487
自分のところの事業の成功率の予測モデルでも学習してろよと思うわなw >>476
AIは警告出してた
警告を無視した人間のせいじゃん てか機械学習だけしかできない会社ってよほどでないとこれからは厳しいな
別のフィールドに専門を持つ会社の方が残りやすそう >衝突0.2秒前になって減速が始まると同時に、ドライバーのバスケス氏に警報で危険を知らせる。
これで対応できるわけねーだろ。 >>489
その場合は人件費より安く前と同程度の結果が出せれば依頼者側としては大きな問題ではないかもしれない 飛び出しで急ブレーキなんて一瞬の判断だよ
0.2秒で判断できないならAI以下じゃん 普通に運転してるならともかくとにかく乗せられていざという時なんとかしろって
できるわけねーだろ。
こんなもん責任かぶせるためだけに乗せてるだけってのがミエミエで気分悪くなるわ。 >>496
そそ。俺の前にいた会社なんて
C言語で画像処理やってたんだけど、電機や半導体などの簡単な仕事ばかり請け負って、その道の専門という体裁で仕事を集めてたんだ
全部なんでもやれますというより、これがうちの強味って売り出し方した方が強い
千葉はそういう会社がいっぱいある。中小企業が多いからじゃん だから機械学習なのにプログラマーの人件費は超安い
まさしく土方 ある日はkeras
別の日にはchainer
そして頭大混乱 >>492
???
日本の法律として100%車側のNGな案件。
AIが悪いとかではない。 まあ、前からこの話は問題になると予想された案件。
一度AI設計者の責任にはならないという法律はできたが、それを導入した設計者に責任があるかはまだ結論は出てない 機械学習はあくまで目的解決手段の一つに過ぎない。
最近、AI専門の学科が増加してるが、それをメインにしては飯食えなくなる気がする。 ついにバブルが完全に弾ける要素が出たなあ
まあこれから地に足ついた現実的な路線に戻るだろなあ
普通にまずは業務プロセスを改善するということに使って欲しい
それ以上のことはあまりにも現実的ではない >>476への1つの打開策としてAI保険基金でも作るしかないかなー。
AI車が事故った場合、AI車の管理者が責任を有する。そのときのお金はAI保険に入っていれば保険やさんが出す。
そもそもの事故回避の問題点は消えないままだが。。 つぎ量子コンピューターが出てくるとどうなるか分からないけど >>476
自転車を押している人
を、危険なものと認識できなかったって事か
https://www.kunihikokaneko.com/dblab/keras/31.png
こんなもんの分類は出来るのに、夜中だったから無理だったって事かなあ >>508
これ以外に、株やFXの相場のろうそくチャートから
次に上がるか下がるかを90%以上の確率で予測できた
なんてのもあるねえ
更にどこぞの高速コンピュータがそれを上回る精度で予測し
しかも1秒に100万回の売買可能!なんて言ってやがるw
実際には証券取引所の方で制限が掛かりそうだな
(0.01%の利益率しか無くても、取引手数料を考慮しないなら
1秒で1万倍以上に軽くなるわけだ(実際には大赤字)) >>509
保険料決めるには保険屋にソースコードや学習に使ったデータなど、基本的にAIの全てを公開しなければならないな 松尾研は変なやつが集まりすぎだよ
yentaでも松尾研のやつ見たぞ 松尾先生で思い出したけど
「G検定を機械に解かせてみた」で合格したらそれは合格と認められるのかね? そもそもG検定なんて文章の読み取り能力を問うような国語の試験になってしまっているので
あんなの合格しても「素人でもわかるAI」系の本の内容を理解している程度の評価にしかならない
E資格ならまだマシだけどそれでも費用が高すぎるので、勤務先が全額出してくれるなら取ってもいいんじゃね?というレベル 学習モデル考えたりしてバリバリの研究するより、松尾のような既存の技術を社会に導入する方法を提案する方が金になるだろうな データなんちゃらりすとになりたいなんて言ってないで素朴に専門学科の勉強をしっかりやりましょう。機械学習はあくまで複数ある問題解決手段の一つに過ぎない。企業側はそのうち見切りつきますから。 >>511
静止しているから衝突しないとそのモデルは判断していたんじゃね?
本当は静止していなかったから認識ミス、識別ミスだな
ドライバーが動画を見ずに前を見ていたら停止できたと思う
ドライバーの契約がどうなっていたかわからないけど
事故を予防する役割もあったとしたらアメリカなら訴えるだろうな
あくまでも事後処理の役割しかなかったのかな >>513
事故の確率とかがわかれば保険料率とか決められるんじゃないの?
病気とかその発生メカニズムとかを説明できなくても保険はあるし 死亡者を出すか出さないかは社会的に大きな差を持つ。
死亡者が出た以上、確率云々の話にならない可能性がある。 小さなお子さまを轢いてしまいました、なんて前例作ったら一気に手を引かなければならない状況になるでしょうね >>525
人間が車を運転しても死亡事故は発生する
自動運転の方が死亡事故率が低い事が分かったら
自動車保険で自動運転の場合の保険料が安くなるだろう
社会的な影響は理解できる
だから実証実験のドライバーが動画を見ていて良かったのかが疑問 保険も思い付きで上げた事例。
実際にそれですむかは知らん 自分が自動運転アルゴリズムの開発責任者なら何があっても全責任をユーザー(とユーザーが契約した保険会社)が負う条件でないと販売できないな
何故ならバグ皆無のプログラムなど存在しないのだからそれを了解した上で使えよとしか考えられない
で、そんな条件で自動運転車を使おうとする人がいるのかどうか 機械学習の仕事はなくならないどころか増えてるけどな
だから人が増えても単価落ちてない でもJavaとCで不良品検査する単価の安い仕事はもうしたくないな
つらたん まあテスラならテスラが全額賠償するんだろう。
日本じゃ無理だな。 >>533
それはただの要素技術でしょ
工場とかの不良検品?医療のサポート系?それとも色んな分野のpocが来てるだけ? >>535
不良品検査で伸びてる。データ集めだるくて
今までシステムを導入してなかったところが、上にせつかれてようやく動きはじめた 荒稼ぎさせてもらったがそろそろ逃げる準備かな
そもそも機械学習なんて外注してる時点で終わっとるのよ
本当にビジネスに生かしたいなら
海外のIT企業の様に業務プロセスに入れなきゃ
活かせるわけないんだよね pythonで組んだtensorflowのモデルをjavaで実装するだけという底辺の仕事もあるよ。そんで外向けにはDL4Jを使ってることになってる
最初Cが苦手でそんな仕事ばかりやらされたわ >>539
Web経由で結果だけ返すとか
system関数などでpython起動するのじゃダメなのか? 推論のためにモデルを軽くするってのはあるけど、
精度を考えるとそもそもそこまで大きなモデルで学習する必要なかったんじゃね?
みたいな話はある。
てか誰も精度なんか興味なかったって話も。。 gpt-2の発表は変だった
期待外れ
あの大袈裟な発表は
イーロンマスクが入れ知恵したからなのかな 形式ニューロンとパーセプトロンの違いがよくわかりません。 >>551
ニューロンは一つの素子で
ニューロンを層状の2層構成にしたのがパーセプトロンじゃないかな 要するに定期的な性能評価と再訓練が必要だから、作って終わりじゃないよって話だよね
あたりめえの話だ 作って放置して劣化しないものなど存在しない
技術の進歩の速いソフトウェアの世界ならなおさら 増加しているアジャイルもAIも従来のSI型の発注では無理だけど、
いつまでこの慣行が続くんだろうね >>555
運用中に処理対象になるデータが
開発中に扱ったデータと違う分布になっているとか
開発中のデータがもともとたりなかったってことじゃ無いの? ここで聞くのもなんなんですがdeep learningの手法とかテクニック系を話してる板はどこでしょうか? どうしたらディープラーニングで言語理解出来るようになりますか? >>561
ママンに自然言語をも一度おしえなおしてもらってからだな >>555
つまりはしばらく食いっぱぐれ無いってこったな。ええこっちゃ。 すいません。まったくのど素人なのですが、質問させてください。
システム構築というか、コンピュータに望むような動きをさせるため、どのプログラムをどのように組んだらいいのか、ってことについて勉強をしていきたいと思ってます。
アルゴリズムや機械学習などの基本知識を学んだ上で、プログラミングを勉強していけばいいでしょうか。
よくわからないなりに考えたので、何を言ってるのかわからないかもしれませんが、何をすべきか、ご教示ください。 >>568
ありがとうございます。できれば最初に地図というか全体を俯瞰して理解したいのですが、それは可能でしょうか。
>>569
ありがとうございます。どこらへんで聞くのが適切でしょうか。教えていただけると助かります。 >>570
システム構築をゼロから学ぶつもりってこと?
どこかの情報工学科のシラバス一回見てみるとか
習得範囲が広すぎるような気もするので、とりあえず望んだプログラム動かすまでとか範囲決めるといいかも
あとは身近で詳しい人捕まえて素人質問たくさんぶつけた方がよさそう 遅くなりました。皆さまありがとうございました。
とりあえず、全体像を見て、どこらへんを目指すか考えていきます。
>>574のスレッドでいろいろ聞いてみようと思います。
それでは。 >>567
>「コンピュータに望むような動きをさせるため」
その『望むもの』を自分で先に見つけ出したほうがいい
これ自体はコンピューターと直接の関係はない。
まずは、コンピュータにとらわれない実務に触れてみたら
ヒントがでてくるんじゃないかな。
じゃないと、何やっていいかすらわからないから、
何から覚えるかもわからないことになる。 大澤昇平 :: AI 救国論 🇺🇳 @Ohsaworks:
AI の場合は単に精度が高ければ何でもいいんですよ。
設計時に人間が主観(「事前分布」といいます)として差別的な情報入れたら NG ですけど、
ラーニングの結果として差別が生まれるのであれば、それは単なる自然の摂理です。
https://twitter.com/rysyrys/status/1197764388691689472
https://twitter.com/5chan_nel (5ch newer account) > 称号 経済産業省認定 未踏天才プログラマー/スーパークリエータ
(つд⊂)ゴシゴシ
( ゚д゚ ) >>580
これが何の意味もないことを証明してしまったな 東大から正式に切り捨てコメント出たな
こういう胡散臭い人はどんどん切ってほしい つくばが出発点で
政府系のあやしープロジェクトにガンガン応募して
りっぱにうかってるところも一緒ダナーw > >>578の人&「トロイのつくば」の作者
>>581
だなw
>>583
東大以外からも
どんどん探し出してポイしてってほしい 文章から画像を生成するGANがあるけど
例えば「机の上にリンゴが1個あります」という文章から画像が生成されたら
機械は人間のように、言葉の意味を理解したと言えるのでしょうか? >>587
机、りんご、上、1個、ある
とかの個別の概念と
それらの関係を人間が意図したのと同じように
解釈して図示できたら
通信ができたことになるのではないでしょうか?
通信が出来ることを理解すると解釈するなら
理解したことになりそうな気はします xmlとかでちゃんと書いてやればコンピュータでも解釈できると思う
画像からXMLなりを生成するのもできそうな気はするな センター試験か何かを解かせたとかニュースになってた気がするけどな
一応問題文を理解して答えを見つけられるようにはある程度なってるんじゃないの? まあ、人間も問題の意図している理解をしているとは限らないからな 入試問題を解くのは条件反射、出題の意図を理解するのは無駄(笑) curriculum learningてどうよ?
効果を感じないんだが。。。 >>594
にんげんさまが指示してやらねばならん部分・・・
階段の刻み方(どういう方法で難しさを順位付けするか)
が悪いんでね?
あるいは
これもやっぱりにんげんさまが指示してやらねばならん部分・・・
レベル1の勇者にいきなりたまにはぐれメタルエンカウントさせちゃう的な、
試練の与え方が悪いか。 nlpなんだけど
ミニバッチ作るときに自然にもうcurriculum learning的になっているのかな? 訓練データとテストデータの相関性がほとんどない問題とか
当てずっぽうで適当に振るところから始めて反応見て方向性定めているのか?
パワーと投稿数の勝負になっている気がしてならないけど Kaggleとかの機械学習コンペで主催者(依頼者)が持ってるマシンよりも参加者(優勝者)がコンペで使ったマシンのほうが性能良いってことあったりするの? Deep Learning散々騒いだ割には結局テーブルデータじゃGBDTにボロ負けな現状なんとかならんの
せいぜいGBDT様にお情けでensembleさせて頂く程度 >>602
テーブルデータの解析で話題になったわけじゃないぞ >>604
多分だけどニューラルネットワークは汎用性が高いだけで、画像系でももっと良いほうがあるけど見つかってないだけと思ってる >>605
画像処理で高精度が出るDNNのモデルサイズを精度をあまり下げずに削減するような研究が出てきてるから、それを突き詰めると決定木的なルールが取り出せるのではないか >>602
データテーブルでも回帰の滑らかさではnnが上だけどな。 >>602
調律師次第ではNNもGBDTに精度で並ぶ
しかもNNとGBDTではGBDTの方がモデルの劣化が早い 回帰がなめらかじゃないと困るって、たぶんあるとは思うけど具体的にどういうケースだろう >調律師次第ではNNもGBDTに精度で並ぶ
んなわけねーだろ。。データが 2000,3000程度の場合、NNなんてまともに動かんわ。 >>609
モデルの劣化って汎化能力が低いってこと? >>609
劣化が早いってどゅこと?
モデルって腐るの。。。? >>614
そんな小規模でNNチューニングしてまで使ううまみはないだろ?
ばかなの?
それとも本気で現場でそんな主張してんの? なんか悪かった
どう考えてもGBDTの方が精度出る案件でクライアントがでぃいぷらあにんぐ使いたいですってほざくから
むしゃくしゃしてやっただけなんだ
NGBoostは学習も推論も遅いし予測分布も分類じゃそんなに嬉しくないし結局LightGBM/CatBoostは超えられなさそうだよなぁ >>618
> どう考えてもGBDTの方が精度出る案件でクライアントがでぃいぷらあにんぐ使いたいですってほざく
発注元の責任で このでぃーぷするとです って
明文化しとけよw
あとから責任おっかぶせられそうになると
ブチ切れちゃうぞw >>620
テラ保守スwww
しっぱいするみらいしかみえないぞ・・・ >>610
例えば学習データでは整数しかないけど、小数点の数値も予想したいときとか。
パラメータ変えた時に結果が同じだと説明の整合が取れないようなものにも使う。 数万程度のデータでNNは流石に無理だろう
過学習して終わるイメージ パンピーには関係ない話だけど、
Kaggleで賞金狙えるレベルの人の中には、稀にNNでGBと大差ない精度を出す者もおるんだ
これはたびたびカーネルに出る話題だから間違いない
GBで特徴量を400程度使って出す精度と、ほぼ同等の精度を特徴量20~50程度で出すらしい
NNは前処理もパラメーター調整もシビアだけど、この少ない特徴量でモデルを組めれば、
実装後にデータの傾向が多少変わっても、GBDTよりは精度が落ちない 長期に渡って現場で使い続けられるかという観点ではパラメータをやたらと増やした力ずくモデルの方が信用ならない危険なモデルなんだけどな 実務上は精度追い求めるよりFeature Importanceが出せるかどうかの方が重要なんだよなぁ NNでもGBでもいいけど、>>618のような客が使う道具まで指定してくるのがイタイ
これで失敗した場合の瑕疵担保責任はどっちにあるんだ? >GBで特徴量を400程度使って出す精度と、ほぼ同等の精度を特徴量20~50程度で出すらしい
そりゃ20~50にうまく特徴量を絞れたらそうだろ。それが難しいんだっつーの。
それを半自動でやりたいってのがそもそもの機械学習の目的だろうに。 >>628
>瑕疵担保責任
契約書の文面の(偶然のなりゆきも含めた)ふいんきと
弁護士に幾らかけるか次第じゃね? 「渡り鳥の渡り行動の研究するよ!
モデル動物はニワトリ指定な!!」くらいの
明瞭な無茶苦茶さがあれば楽なんだがなw 大体4000件しかないデータで何すんだよ
Titanicじゃねーんだぞ >>622
台風の進路予想とか言うくらいのもっと具体的な例を期待していた
それだと滑らかな回帰ができないとホントに困るのかぴんと来ない このソニーのニューラルネットワーク関連の解説動画どうよ?
https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA
良い動画だと思うんだけど、このスレの人たちの意見を聞きたいです。 アノテーションツールとしてVoTTとlabelImgが紹介されているが
VoTTの方が楽かな
ただしtag名を入力してから、最後にエンターキーを押さないと
それが確定しない、という事を知っておかないと
いつまで経ってもtagすら作れないw
labelImgはpythonのpyqtから作るからワクワク感があるが、
自分の落として来たバージョンがミスっていたのか、プログラム内のimportファイルの書き方に
3ヶ所エラーがあって、自分で「こんな行き当たりばったりの治し方で良いのかなあ?」
と直したら、とりあえずユーザーフォームが開く所までは動いた
だがまだ肝心なアノテーションを試してないなあ
ボロボロだったりして GPUのメモリがオーバーしてしまい
Jupyter閉じてプロセスID調べてtaskkillと
こんなの出来たんかwwwww chainerやめちゃうのか
chainerXとかリソースメチャクチャ使ってたのに
やはりマーケティングの失敗だよなあ
非常に残念 マジかよChainerの勉強もそこそこ進めてた矢先に
まあPyTorchが類似部分が多いから何とか PyTorchに統一して欲しいね
TF2.0も今更感あるし
初心者向けのKerasとプロ用のPyTorchの2つでいいと思う chainet-rlの代わりは何がよいの?
cupyとoptunaは開発継続らしいよ 何といっても深層学習の数学的な枠組みが分かってないと
使いにくいのがChainerとPyTorch
だが細かくカスタマイズし易いのがChainer&PyTorch
kerasは「何かこのタイミングでこれっぽい事したら上手く動くんじゃね?」ぐらいの理解でも
何とか動いてくれる
でも細かなカスタマイズは出来ないからTensorflow丸ごと弄ることになって、
そうなるとChainer&PyTorchより更に上のレベルの数学的な理解と
そのプログラミング上の実装を知っておく必要が出来てしまう まあ、良いのではないでしょうか
マイナーチャンジに力を注ぐより、より良きものを求めることが立場 tf2.0とpytorchってシェアほぼ互角じゃない?
どっちに統一されるかは知らん。自分の使ってる方がマイナーになったら
あきらメロン ツールが使えるだけで機械学習や統計を理解した気になっている人は危険だと言うことだ
本当に理論から理解していれば多少記法が変わったところですぐ順応できるが、特定のフレームワークを使った単なる作業者だとそのフレームワークが下火になった時に移行するのにかなりの労力が必要 はじパタ本とかゼロから作るで適当にベースを作っただけでも
複数のツールを使うぐらいならワケないけどな
でもそのレベルだとこれからは機械学習を専門職にはできない感じがする ハードウェアサポートが広い方を使いたいからtensorflowって感じになってる。
分散環境での学習とか、クライアント機でどれだけ動くのかがこれからの焦点なんじゃないかね。
コード内容自体はどっちも大して変わらん。バカは大騒ぎするけど。 ゼロから作るやっとくメリットで具体的になんですか? 自動微分を自分で実装すると手間だなというのが実感できる。 >>653 NN、畳み込みNNやLSTMのロジックを一から理解できる
逆にいえば、そこ完璧にわかってるならやる意味ないだろうなあ 「ロジック知って何の意味あるの?知らなくても使えてるよ?」みたいなことを言う奴が出てきそう お前が使えるレベルならそうなんだろうとしか言いようがないな ハイパーパラメータの自動調整をまともに使うには背景にある統計理論の知識がいるよ chainerは単純に人員が足りてなかったと思う
リリース版にバグがあるままリリースしてる
リリース版の更新が多すぎ
で離れて使わなくなった >>661
あんまり関係ないがな。
hyperoptなりoptunaなりにつっこむだけだろ。
しかもそんな変なチューニングするくらいなら論文のままのもの使った方がいいっていうおまけつき。 >>662
いよいよ倒産が見えてきたのかな?
受託もしないし自社サービスも出さないし
それでやってられるとは思えん
とにかくユーザーが使えるサービスをリリースしないと ハイパーパラメータ調整ツール自体の調整能力まで把握した上で使うならいいが
理論も分からない、ツールがどうやって調整したのかも分からないだと困るな
「どうしてこのハイパーパラメータが最適なのか?」の質問に対して「ツールがそう算出したから」「論文に書いていたから」を回答にせず説明できるなら問題ないとは思う >>667
それは生産性も価値もない話だと思う
理論について勉強することは必要だけど、重箱に隅のような知識を大切にするよりは
機械学習の外に目を向けた方がいい pfnってなんか仕事はしてるだろ
トヨタとの共同研究ってまだ続いてるんじゃないの オコボレ狙いの企業が未だに群がってるから、財源の心配は無いだろう
人材に恵まれていないのか成果がパっとしないけど、
それでも日本のSI企業に頼るよりPFNに投資した方が賢い >>667
試した中で一番いい結果だから
じゃダメなんですか? PFNみてるとgoogleが広告やらなかったらこんな風にじり貧になってたんだろうなってのが想像できる。 >>669
嫉妬というかこれだけの技術力あるのになにをしてるんだ?という気持ち
結局第三者から見たchainer以外のアウトプットはないわけだし
それを切るってもう何も残らん 第三者ってどの程度のこと言ってるか分からんけどCuPyとかoptuna使ってる人そこそこいるだろ 機械学習で日本の人名を生成したい
どうすればできる?
当方しがないエンジニアでpythonはできるが、
機械学習周辺のキーワードがわからなくて調べられずに困っている
GANとかいうのは画像用だから使えないんだよな?程度の知識 日本の人名は戸籍に使える文字が決まってるから
そこから選べ >>680
ありがとう
ただこれの用途はキャラクターの命名なので、
現実に使える文字かどうかはあまり重要じゃない
むしろ実際にはありえなさそうな方が良い >>681
保険会社かなんかが姓名ランキングしてるから
まずは使える文字からランダムして
よくある苗字や名前になってたら再抽選 ディープなことするよりマルコフ連鎖とかでやった方が良さそうだけどな ああ、同人誌みたいなライトノベルみたいなどうしようもないやつに使いたいのね
乱数でいいんじゃね? ランダムな個人情報を生成するプログラムなら既にあるが
テストとかに使うらしい 人名ジェネレーターで良くない?
辞書リストと乱数で成り立っていてAI不要な デスノートのいじめが発生しないようにって配慮スゲーって思ったな ご質問なのですが、機械学習の回帰問題において、教師信号が特定の範囲内にある時の重みを重くするような損失関数はありますでしょうか?
私が解きたい問題においては、教師信号の値が0~1の間の値を取るように基準化しているのですが、
例えば、RMSEを下記のようにカスタマイズした損失関数を使用したいのです。
False Positive:学習器の出力は0〜0.2の範囲だが、教師信号は0.2より大きい or
学習器の出力は0.8〜1の範囲だが、教師信号は0.8未満
False Negative:教師信号の出力は0〜0.2の範囲だが、学習器の出力は0.2より大きい or
教師信号は0.8〜1の範囲だが、学習器の出力は0.8未満
とTrue negativeとFalse Negativeの場合にのみ損失関数を計算するか、重みを大きくした損失関数を使いたいのです。
もしご存じでしたら、この損失関数を使用可能な学習器やライブラリなどを教えていただけますでしょうか。
ライブラリなどが無くても最悪論文などがあればそれでもかまいません。何卒ご教示をお願いいたします。 >>690
まず教師信号とはなに?ベクトル?時系列?
>教師信号が特定の範囲内にあるとき…
ヘビサイト関数(ステップ関数)の重ね合わせで表現可能
>RMSE
二乗平均?(RMS)
よくわからん。一般的でない。
>false positive, false negative…
応答だけ書かれてもわからん。±で4パターンあるだけ? >>690
fpに分類をよせたいということであれば重み付けカッパ係数で評価する方法はある。
ttps://qiita.com/tand826/items/4d1fb2045f2b48d21b7d
求めているものと全くちがうかも 理解してない人が繰り出す小手先の改善ほど効果のないものはない >>695
RMSEは一般的だけど。。
>>690
やり方は主に2通りある
一つはサンプルをいじる方法、もう一つは関数をいじる方法だけどもっと詳しく聞きたい? うんこレベルに無知なくせに回答しようとするゴミって
どういうメンタルなんだろうなw
機械学習は分かるけどウンコの考えは謎だわ 皆さん、お忙しい中返信をありがとうございます。
>>698
知りたいです。是非教えてください。
>一つはサンプルをいじる方法、もう一つは関数をいじる方法だけどもっと詳しく聞きたい? >>701
サンプルをいじる方は2パターンあって、重みを付けたい範囲のデータを水増しして増やすか、逆に重みを付けたくない方のデータを間引くかのどちらかを行う
関数をいじる方は、使ってるライブラリのオプションにweightみたいなのがたぶんあるはず。無ければ自分で実装しかないんじゃないかな 損失関数を変えるってより真の目的は特定のデータ範囲だけ重み付けしたいということだと解釈したけど、違ってたらすまん 訂正
>>702はあほか
ただステップ関数かけるだけやん >>702の方法を詳しく聞きたいです。
どのレベルのものが出てくるのかな? >>698
>やり方は主に2通りある
一つはサンプルをいじる方法、もう一つは関数をいじる方法だけどもっと詳しく聞きたい?
聞きたいです。
どのくらい短いコードになりますか? >>702
ありがとうございます。私が阿保でした…。色々と難しいことを考えていましたが、普通に分類問題における不均衡データの扱いと同じように考えれば良いのですね…。 >>698いわく方法は2つあるらしいけど、僕ちん一番始めに思い付かなかったな。長過ぎて。 >>698のどや顔のわりに出題者の意図を組んだ回答になってなくて笑うわ >>699は>>695の始め四行を理解できましたか?
おそらく意図に沿った最適解ですよ? ところでさ、>>690は>>695の最後の一行だけで解決できたって認識はある? >>710
ID変わっちゃってるけど
>>698は俺で、>>702で回答したつもり
そうそう不均衡データ知ってるなら話は早い。それと同じに考えればいいんじゃないかな オライリーのPythonによるデータ分析とデータサイエンスハンドブックってどっちがおすすめですかね? オライリー本の機械学習本大杉
俺にも初心者向けのお勧め教えてほすぃ
趣味でやる程度で、プログラムは問題なくて数学はソコソコ程度でやんす アンドロイドは電気羊の夢を見るか? フィリップKディック >>723
この板では常識みたいな本のタイトルだよな >>725
アニメという時点でダメですね、紙の本を読みなよ pythonの入門書を終えてtensorFlowとかkerasとか学びたいんだけど、
よい入門書教えろください。 orz >>728
いきなり深層学習フレームワーク触るより深層学習の基礎勉強しなさいよ
つ ゼロから始める〜 せんせー、pythonの文法知ってるだけの人がいきなりゼロからはじめるやって分かるんですかー tensorflow触ったって理屈何も分からんでしょ >>729
説明不足でした。
ニューラルネットで修士号とってますが、
全然関係ない分野で働いてたので、
プログラムのリハビリ状態。
統計学と昔の機械学習は理解しているので、
新しいトピックと実際の動かし方を学びたい。 何をどう調べてどこまで身につければ十分なのかを自力で把握できなければダメ
何も知らない中学生・高校生ならまだしも、大学出た社会人が「何から学べばいいか?」とか聞くこと自体がアウト いや、Tensorflowの全体像を知るための定番の入門書を知りたかっただけなんですが・・・。 >>733
「scikit-learnとTensorflowによる実践機械学習」などどう? >>737
TensorFlow2.0やりたいなら本はほとんどない
これから2.0しか使わなくなるから今ある1.0の本を読むべきかと言うと微妙 >>738
ありがとうございます。チェックしてみます。 >>739
なるほど。
現在2.0を学ぶんなら洋書ということになるのでしょうか?
ひょっとして、洋書もまだ出てなくて、ネットで情報を漁るしかないのかな・・・。 >>742
pytorchなんてものもあるんですね・・・。
Scikit-learn
Tensorflow
dlib
PyTorch
どれから手をつけるのがいいんでしょう? 修士のときはアルゴリズム系の研究をしていて、
あの頃は、みんな一からC言語でコード書いていたから、
完全に浦島太郎状態だなぁ。 >>743
sklearnでいいんじゃない?
仕事内容にもよるけど >>745
入門書ではsklearn使ってましたね。
とりあえず直近の回帰分析とかレベルだとこれで十分なんですよね。
ただ、流行りのDeepLeariningとかも学んでみたいという欲が出ているのが抑えがたい。 ライブラリ比較サイトで勉強してきました。
直近のしごとはsklearnで事足りそうだし、
Deep Learningとかの勉強はPytorch使ってみようかと思います。
Tensorflow+Kerasも気になるけど、Tensorflow2.0の情報が出てから勉強したほうが、
効率良さそうな気がしてきました。 >>741
洋書もほとんどないと思うよ
公式のドキュメント読み込むのが良いと思う 修士持ってて5ちゃんで入門書の情報収集かよ
てかネタだよな? neural machine translationを試してるけど
ユーザー辞書を指定する方法が分からない
誰か教えて >>748
普通にtensorflowやっとけ。
どうせ2.0でても1. 系統との違いみたいな説明しかされんから。 やるならkerasがいいよ
モデル構築部分はほぼkerasと同じ感じに書けるようになった
1.0の計算グラフはユーザーから意識することはなくなったし
それを覚えても意味はないと思う NICTはなぜオープンソースで公開しないんだろう
MSやGoogleやFacebookはGitHubにアカウントを持っていて
研究成果を公開しているのに
NICTもそれらのオープンソースを利用しているくせに公開しない 企業は収益を得る手段がほかにあるけど
研究機関は違うのも関係あるように思う NASAもジャンル違うけど公開してるし、税金投入してるなら国民に見せた方がいいはずだけど
日本の研究機関は遅れてるんかね
情報漏洩と公開範囲を定義して運用出来る頭脳はよ 現代のIT企業は研究成果をオープンにすることで世界中からフィードバックを貰うことで超速で進化しているんだけど
日本の古典的大企業や研究機関は研究成果を隠すことで他と差別化できると思い込んでいる
GAFA躍進前の時代なら日本式もそれなりに良い方針だったかもしれないが
今の時代ならその隠した研究成果と同等かそれ以上のものがその内GAFAから生まれるだろうから無意味
研究機関がGAFAのようにオープンにした成果を利用した金儲けができないことが問題なのであれば
金儲けできるように日本のローカルルールを変更すればいいだけ 研究機関はどうかは知らないけど少なくとも世界的に大学は公開してるしな 横並びで公開しない暗黙のルールか忖度ありそうね
東大やら普通にイントラにgitlabサーバ建てたりしてた記憶
あの先生より上層部の意識がどうかやねえ 研究スピードがどうしても海外より劣るから、モノを公開しちゃうと置いてかれるんだよ。
日本の研究機関の風土の問題じゃなくて、研究以外もこなさなきゃいけない人達が合間を縫って研究するしかない
日本の科学技術に対する制度設計の問題。 国立の研究所が情報隠すのって
NHKが受信料で作った番組を子会社でDVDで商売してるようなもんだね 論文優先で手が廻らないってとこか
ソース公開も楽じゃないすな 論文で十分に公開していると思うが
ソースも欲しいのか
テクニカルレポートが欲しいのか? Pythonライブラリの公開とかね
日本も大学はしてるとこあるし >>762
国民の財産で私服を肥やすNHKはもっと悪質 公開出来るレベルのソース書けてるか、ライブラリ設計する能力があるか、も問題になりそうだけど、その辺も磨くと、ワイのような暇してる野良開発者もOSSなら協力出来るという特典はあるね
正直、研究系のITの仕事はパートタイムの30年前のサーバ管理みたいなのが多くて手伝えん >>768
ほんそれ
https://megalodon.jp/2019-1225-1001-08/https://qiita.com:443/unico/items/76499d1e20042d929aa1 研究者なら本来ソースが見やすいかとか関係ないからなあ
大事なのは数式の理論だし
日本人はごちゃごちゃどうでもいいことでなんくせつけるし 産総研、JST、NICT、理研あたりは実装公開しろ >>770
んなこたーない
スパゲッティなコード書かれたら検証も追実験もやりにくくなる
機械学習の論文の再現性がないのは大きな問題になっている 研究報告の本質は再現性の有無を確認してもらうことだ
機械学習分野で言えば都合のいい学習データ、テストデータを使っていて実用上そんな状況あり得ないとか、ハイパーパラメータどう決めたのかとか疑おうと思えばいくらでも疑える点は出てくる
それを払拭する唯一の方法は実際に書いたソースそのものを出すこと
そのソースは最早論文の一部なのだから書いた人にしか分からない滅茶苦茶なものを公開して「公開したのだからこれでいいだろ」などというのはあり得ない >>775
ソースコード出しても他のデータでの
汎化誤差が小さいかどうか判らなくね? 企業もIT云々と言われた時代から金を掛けないし人を育てようともして無かったんで伸びないだろ
AIについてソフトバンクの孫が日本は遅れていると吠えてたけどまともな人材すら流れて来てないんじゃないか
企業にとっては若者をいかに騙して利益を吸い取るかっていう分野だろう
日本ではIT土方より土方の方が将来性ある stanとかPyMCって明らかに統計解析向きでシステムに組み込みづらいけど、
明らかにNNよりベイズの枠組みで変数間の関係を記述する方が優れているので、数学弱者でも自力でアルゴリズムを導出する事なく、kerasみたいにシステムに組み込めるようになる日は来るんだろうか。 研究者のコードは糞で見てられない。
R&D何年かやってたけど、もう関わりたくないなぁ 人に読ませることは重要ではない。
読めない奴は置いていけばよい
確固たる結果が付属する理屈があること。それさえあれば自然と読む人が必ずいる。 情報系の研究はソースコード公開してても読むやつほぼいないよ
バグとかそのまんまで放置されてる
動くかどうかすら怪しいから研究の副産物触るのは嫌い 動かなかったら研究を追試できないと文句を言えばいいし
ぐちゃぐちゃコードで動けば追試できるしリファクタリングもできる >>783
> 情報系の研究はソースコード公開してても読むやつほぼいないよ
どうやって調べたの たしかに酷いコード見るなあ
1関数1ファイルで何百行もあってif
文が大半のとか
リファクタリングしてあげたいけど、作者が読めなくなりそうで躊躇 ソフトバンクの損って節税(脱税)と投資失敗で話題の人か >>782
その真逆でとことん人に読んでもらう・理解してもらう環境を整えることを追求した結果が今の世界的IT企業の躍進に繋がっているんだけど 読む奴は存在すると言ってるだけ。
有益ならばちゃんと拾う 日本の論文だけなんだよ実装がないのって
海外のは下の脚注にgithubで公開してるぜとある 機械学習分野なんて玉石混交の論文が日々大量に出回っているのに読みやすさを無視して「有益なら読む人はいるだろ」
という態度で書いたものを読んでもらえるのなんて既に実績上げているごく一部の人だけなんだよな >>782
人が読めないのは100歩譲っても自分でも読めないとか言い出す馬鹿が多いからな。
それ根本的にソースが糞ってことだから。 ソース公開しないのは発展性がない論文だからだよ
要は書き逃げ。そこから次々に論文が出てくるようなら
否応ざるにコードもちゃんと書かなければいけなくなる
それをしないということはその論文はゴミ、あるいは捏造 まず、ソース公開は、業績にならないからな
次に、公開しない論文は自らゴミと認めていることでもある
どうせ使う人はいないだろうという意味合いもある 論文書いてる人はソース公開されないと実行できないとかいうレベルの人向けに書いてるわけじゃないんだぞ 追試しやすくなるから、やましいことがないならソースも公開した方がモテると思うよ >>801
論文に書かれた内容だけで論文に示された結果を完全再現できるような論文なんてほぼ存在しないことを知らないのか
それをソースで示して完全再現できるようにしない限り捏造の誹りから逃れることはできない 1行目と2行目の繋がりがよくわからない。
世の中のほとんどの論文は捏造が疑われているということ? >>805
捏造とは言わんが、特定のデータにチューンして宝くじ効果で上手くいったよね
みたいな論文ばっかだと思われる。
MNIST、CIFER10でしか実験してない論文とかな。 >>805
公開情報のみから判断した人に捏造と疑われても仕方がないということ
>>801は「ソース公開されないと実行できないとかいうレベルの人向けに書いてるわけじゃない」と言っているが論文をいくら読み込んでも必要な全情報が含まれないことなどザラにあるのだから実行して確認したくてもできないことが多い
だったら最初からソース丸ごと公開しろよ、ということ
その方が無駄な疑いに基づく手探りの検証過程などすっ飛ばして早く自分の成果を認めてもらえるのだから 結果が疑わしかったり論拠があやふやな論文はさすがに査読で落とされていると信じたいが。
大半がそんな状態だというのが共通認識だとしたらいまごろもっと問題視されてないか? 水面下では問題視されている
結果が良すぎたり、特定の国の人が書いた論文は
信用されない それが共通認識になっていたとしたらもっと大問題にされているだろうと言っている。 連日報道でもされん限り問題になってないとか思っちゃうバカ?
何をもって問題になってるなってないというかによるとしか言いようがない。
使ってなけりゃ社会的な問題にはならんだろうし。
少なくとも「まるっきり信じてやったら上手くいきませんでしたー俺は悪くありません」
とか言い出す奴は、自分の職場では大問題だわ。 「論文に書いてあることなんて信用できないからその通りにできなくても俺の責任じゃありません」
と言ってるのかと思ったが。 >>809
> 結果が疑わしかったり論拠があやふやな論文はさすがに査読で落とされていると信じたい
希望論でつねわかります
>>815
実験系だと
論文の結果そのものは
往々にしてミラクルなオリンピックレコード的な伺か
って暗黙の了解なんだけどぬ・・・ もう馬鹿は「再現性なんてなくても問題ない」と思ってりゃいいよ。
お前の中ではそれでも問題ないんだろう。 実装が公開されてるけど、実行しても論文通りの結果が出ないとか普通にあるしなぁ
ソースが公開されてても査読者は暇じゃない限り実行せんしな さらにデータを開示してもらわなければならない
「このデータ・セットではうまくいった」
実はそのデータ・セット以外ではうまくいない
じゃあダメじゃん
よくある話だ まともな論文はオープンなデータを使うか
実験に使ったデータを公開してる
JST、産総研、NICT、理研、NTTあたりはこれらもやってない オープンなデータを使っているけど
データを恣意的に選択して実験しているため
他の人がやっても再現できないというのも
よくあるパターン
別に日本だけではないが データの選択によって再現性が失われているなら、抽出データが偏ってるし、
普通は検証段階で確認する
しかし、精度の高いモデル作りました→実践投入
で、新規データを食わせたら精度が右肩下がりって良くある光景 >>822
よく言われる過学習になってると思う
過学習かそうでないかは未知データで訓練と同程度の性能が出るかどうか以外の判別方法ある? そういうわかりやすい汎化性能を表す指標ってものがあったら、それをロスに組み込めばいいわけだ。
だがそんな状況にはなってない。 希望の結果に成らなかった事柄全て、過学習と言ってしまうことのないように 日本の研究期間は
本当の意味で研究に寄与してない
松尾豊あたりがちゃんと言わなきゃダメだろ 過学習の判定は当然ながら一定数の推論結果を総合して行うわけで個別の推論結果が希望通りかどうかなんてことはそもそも眼中にない
>>827は過学習が何なのか、どうやって過学習か否か判定するのかすら理解していないのだろう 松尾豊にダメ元で意見を送ってみることにした
実装とデータをgithubで公開することを基本にしろ、と
そうしないと日本の研究は停滞したままだ、と 繰り返しますが、うまくいかなかった事柄を過学習とラベリングし、考えることを止めないように。
過学習って言葉は使用禁止にしたいぐらいですね >>835
松尾って奴には何も期待してないから別にやらなくてよい 線形代数とか難しいんだけど、ライブラリ使いこなすだけだとやっぱりしぬ? 機械学習は置いといても線形代数は理解してた方が今後の人生のためにはなる。 >>835
経産省と文部科学省に言うべきだが、
>>835が進言するより、松尾や落合が言った方が聞く耳を持って貰える PFNの連中でもいいけど
日本のAIベンチャー(笑)から建設的な意見が出てこないのも悲しい
やっぱり山師なんだろう 実装を公開するといっても、実装した人の特異な環境、設定で
やっているかもしれないし。次はそれをもっと標準的な環境で
公開しろということになってきりがないような気がするが まずは米国並みに公開すればいい。問題が出てきたら他国でも問題になるだろうから皆で考えればいいさ 公開するのってキリスト教的な考えなのかな
寄付みたいな
日本はどうも閉鎖的 複数のデータセットでエラー率を測定して
その母比率を区間推定して
下限値が要求するレベルを超えているかどうかで
そのモデルを採用するか否か判別する方法はどうか
エラー率を他の指標にしてもいいかもしれない 過学習しているモデルなら
エラー率の分散が大きくなると予想して
区間推定の区間が広くなって
下限値が下がると思う 複数のデータセットをそんな簡単に用意できるわけないだろ。
クロスバリデーションからやり直し。 >>846
科学的なものではないか
材料系の実験論文は、材料と手順を書いても追試困難なものも多いそうな
計算機上で出来る実験はエビデンスとしてソースが使えるから、公開したら説得力が増して良いことばかり 問題は説得力と信頼性を得ても金にならんてことだけどね。 線形代数が難しいって言ってる人に聴きたいんだが
具体的にどの辺で詰まってるの? 論文の説得力が増しても給料上がったりに繋がらないなら、研究者の評価の仕方が違うんかね
お役所はどこを見てるのか >>849
訓練に必要なデータ数はどの程度か目安を計算する式ある?
テスト用ならそれよりもっと少なくていいんじゃね? 教育やってるけど難しいと言ってる人は大抵固有値問題で引っかかる 固有値では引っかからんだろ、ジョルダン標準形なら分かるが 線形代数は大抵の大学の講義がひたすら定理の証明をなぞるだけで何のためにやってるのか説明しないからいつしか付いていく気が失せるのが問題 >>853
何本かいたか&何回発表したか しかかぞえてないぉ
だから
プレデター(ハゲタカ)ジャーナルとかプレデターカンファレーションがわらわらわー 正当な評価を受けたいまともな研究者は海外へ出ていくだけ ロジック/ロジカルシンキング/論理的思考と一般的に呼ばれるもので物事を解決しようとすると、基本的な問題解決のための方法は
帰納法によるアプローチ
演繹法によるアプローチ
この二つの何れかのアプローチに分けられる。 前者は、これまでの実績/経験則を元に一般法則を推定しようとするアプローチである。
一方後者は、確固たる前提/原理原則/一般規格から、確固たる結論を得る方法である。 例えば、ハイパーパラメータを弄って一定の効果・傾向を掴み、それを元に上手くいった/いかないを結論付けようとするのは帰納法による推論である 他方、小学1年の算数の例であるが…
1+1は2である。
これは、小学生1年生であろうが学校の先生であろうが、会社の社長であろうが一国の首相であろうが同じ答えを答えるだろう。 >>861
引用数も評価されると思ってた
引用稼ぐにはソース公開はいいと思うけどなあ ただし、
数字を十進法ではなく二進法で表せば1+1=10である。
他に、
1+1の『+』の加算の定義を『×』乗算の定義と入れ換えれば1+1=1である。
あるいは、
2という数字の定義を5と入れ換えれば1+1=5である。 加算の定義、数字の定義、数の定義を全て正しいものと仮定して始めて1+1は2となる。 ここの人は是非、自分のやっていることが前者で進めているのか、後者で進めていることなのか、よく考えてほしい 帰納法で得られた結果はあくまでも推定の域を出ない。
例え10回やって10回ともいい結果が出たとしても11回目に100%よい結果が出るかどうかは保証はない。 他方、演繹法は絶対的・普遍的な解を得ることができる。
これは非常に強烈なロジックなのだが、残念ながら日本ではこのアプローチを重視する人材が非常に少ない、というかいない ねー
文系出身のワナビーだろう
直感はどちらに分類されるのだろうね >>869
そういえばそんなのもあったが
だいたいはお友達w同士で相互に引用しあって一蓮托生というね もうね 日本での研究者の評価というと、真っ先に思い浮かぶのが科研費
過去の論文の数を基に、今後の計画を立てて予算申請する
一応審査しているのは専門家
専門性の高い論文を書いているかどうかが評価の基準
情報公開は・・・評価されるのかな?
そういうのを書く項目がないような気がする >>856
そんなものはない。
あってもVC次元使った奴とかバウンドが実際のデータ数よりも圧倒的に多いものしか計算できなくて
全く使い物にならん。
テストデータのサンプル数も何回か試して精度が安定する個数に設定するってのが現状。
この仕事、やってない奴ほど理論でなんとかなると思ってんだよな。
そこが実際とのギャップになってめんどくさい議論を増やしてる。 相対性理論は
仮説推定⇒演繹法による検証⇒ローレンツ変換不変の前提のもとで100%正しい >>881
それはお前及びお前が出会ってきた人間がヘボいだけ >>885
そうだな。お前みたいなヘボイ奴ばっか相手にしてる。 例えば一般相対性理論は慣性質量と重力質量は等価である等の
小さな原理から大きな理論を構築した帰納的思考によるもの だから仮説推定の後すぐに演繹法による検証をやってるのがアインシュタイン 自然言語処理のツールの使い方を覚えたいんですが
具体例のあるブログ記事ってないでしょうか
keras とか ALBERT とか tensorflow とかでてくるんですが
どれもインストール方法とかの説明はあるんですが
はじめからセットしてあるモデルに対して精度を出力して終わりみたいなブログ記事ばかりで
実際に日本語で質問文を投げてAIが返答するようなプログラムの書き方みたいなのが一切出てこないです
どうやって勉強すればいいんでしょうか
情報系の大学院生でプログラムはそこそこ経験があるんですが
AIに関しては原理を講義でならっただけでtensorflow すら使ったことがないレベルです
もうじき就活がはじまるのでAIが使えるってだけで有利になるらしいので
サンプルシステムを作ってみたいと思ってます それは世間的には基礎的かもしれないが
現行のAIはそこまで対応してないだろ
文書の内容を機械が理解するのは高度
とりあえず日本→英語の翻訳を実装してみれば手がかり、オリジナリティを得られるのでは?
一般的な、唯一の手法はないという前提だが、じぶんがしらないだけかもしれないが 2019/08/19 05:01
AI翻訳が人間超え、言葉の壁崩壊へ
1人に1台、自動翻訳機、多言語“通訳”がポケットに
第1部:市場動向
https://tech.nikkeibp.co.jp/atcl/nxt/mag/ne/18/00046/00001/
2019/08/20 05:02
AI翻訳が人間超え、言葉の壁崩壊へ
トランスフォーマー時代到来、翻訳技術から汎用言語系AIに
第2部:技術動向
https://tech.nikkeibp.co.jp/atcl/nxt/mag/ne/18/00046/00002/ 総務省・NICT主催「多言語音声翻訳アイデアコンテスト」(第2回)優秀賞決定!
多言語音声翻訳コンテスト運営事務局 2019年12月19日
総務省と国立研究開発法人情報通信研究機構(NICT)は、12月14日(土)TEPIAホールにて、
多言語音声翻訳技術の更なる普及や多種多様な翻訳サービスの出現を加速するため、
世界の「言葉の壁」をなくす新しいアイデアを募集する「多言語音声翻訳アイデアコンテスト」(第2回)審査会及び表彰式を開催いたしました。
https://prtimes.jp/main/html/rd/p/000000002.000050519.html 機械学習だと固有値って教本にやたら出てくるけど具体的にどこで使うの?主成分分析だけ? >>893
ツールを使うだけではBOT同志で会話するっていうのは無理で
かなり高度なチューニングの知識?がいるってことなんでしょうか
ライブラリに適当な文章大量に流し込めば勝手に知識獲得してしゃべりだすものかと思ってました 人工知能が2019年センター試験の英語筆記本試験で185点を獲得 2019年11月19日
人工知能プロジェクト「ロボットは東大に入れるか」の一環として、大学入試センター試験の英語筆記科目に挑戦した結果、185点(偏差値64.1)の成績を収めた。
NTTコミュニケーション科学基礎研究所(NTT CS研)ではこのプロジェクトを自然言語処理および知識処理の基礎研究を進めるベンチマークとして捉え、自動解答に関する知見を積み重ねてきた。
近年は深層学習に基づく文書読解技術が進展しており、そのなかの最新技術であるXLNetは、大規模テキストによる事前学習をベースモデルに、問題の性質に合わせた移転学習を施すことで、異なる種類の問題を比較的少量のデータから効率的に解くことを可能にした。
しかし、学習に利用できるデータが大きく不足している問題や、解答に辞書的な情報が不可欠な問題では、十分な精度の解答が得られなかった。
今回NTT CS研は以下の点で改善を施し、過去3年間のセンター本試験/追試験に対して適用した結果、安定して偏差値60以上を達成したという。
不要文除去問題の高精度化
機械学習は正解と不正解のデータの両方を入力して学習するが、文章から不要な文を見つける比較的新しい「不要文除去問題」には適用できない。
というのも、通常の文章には不要な文が含まれておらず、学習に用いるデータを集めることが難しいためだ。このため従来のAIでは、本試験/追試験で15問中6問しか正解できなかった。
そこで、不要文を含まない通常の文章から、文の順序を組み替えて擬似的に不自然な流れを作成することで、大量の不要文除去問題を自動作成する手法を考案。
これにより15問すべて正答できたという。また、過去問や独自作成問題からなるベンチマークデータにおいても、正答率を60%から86%までに高められた。
https://pc.watch.impress.co.jp/docs/news/1219388.html >>881
ないならつくるのが研究者の課題じゃ無いのかな? 科学って帰納的に仮説を立てて実証することの繰り返しじゃね?
その仮説を立てたりどんな実証方法があるかを考えたりするのにこれまでに判っている事を演繹的に適用して論理展開する
両方の思考が必要だと思う >>882
時間や空間が絶対的なものではなくて光の速さが絶対的だと言う仮定を元に演繹的に論理展開していったものだと理解している >>890
あなたはそうかもしれないけど世の中的には
実験で確認されて初めてノーベル賞もらったりしてるけどな
ヒッグス粒子もそうだったし 物理は実験が主だよ
アインシュタインみたいな理論屋は凄いけど実験で確認出来なかったら只の妄想 >>904
湯川博士とか理論物理で進展した領域もあると思う
実験で確認されないとただの仮説だけど >>897
(ヾノ・∀・`)ナイナイ
大量に話しかけてやれば
そのうち
それっぽい応答するようになる、かもしれない
日本語対応Python3系のコードっていうと
ちょっと古いが、
unmoっていうのがある。
探して読んでインスコして遊んでみれ。 ガチ勢はフツーの線形代数じゃなくて、行列の微分が自然に出てくる領域で、
一般相対論とスキルセットで親和性が高かったりする。 >>906
もちろん理論も大事なんだけど、物理の場合は理論がいくら発展しても実験で確かめられないと意味がないという風潮があるよ
電磁気力、弱い核力、強い核力を統一する大統一理論の有力候補の超対称性理論ってやつも、多分理論としてはかなり綺麗にまとまってるんだと思うけど、超対称性粒子が全然実験で検出されないからなかなか立場的に厳しいみたい
重力まで統一する万物の理論に関しては、例えば超弦理論なんかだと決めるべきパラメータが多すぎて、また実験も惑星規模の加速器を作ったりしなきゃいけないらしく、現実的にこの世界に適合する超弦理論が得られるかというと怪しいみたいで、物理学の仮説として取り扱うのすら反対意見があるらしいよ >>909
風潮じゃなくてニュートン以来の原則が実験ですよ
何故か物理は数式で表せて、しかも美しい数式になるという所から、ここ100年ちょっとは美しさという指標で、理論だけでもドンドン発展させられたのさ 実験検証でのデメリットとしては、実験でよい結果が得られた⇒だから正しい⇒終わり
としてしまう人が発生すること。
たまたま偶然よい結果がでただけの可能性を疑わない人がいるんですよね。
○-○aveなんかはその最たる例ですね アニーリング方式は100%最適解が求まる類のものではないんじゃないの?
量子の振る舞いの結果を計算結果とみなすってことだろうし
量子ゲート方式なら論理演算ができるのかもしれないけど
ノイマン型でも誤り訂正とかしないとミスは起きるし
量子ビットも誤り訂正とかの技術が確立されてきたらエラー率が下がるんじゃないかな >アニーリング方式は100%最適解が求まる類のものではないんじゃないの?
そのとおり。量子アニーリングで得た結果は最適解である保証はありません。
結果だけ切り取った結果、無駄な投資を生んでしまい、日本の量子コンピュータ検討の邪魔する結果となってしまいました。 全くすれ違いだし
そもそもお前ら実験も理論もどっちもやってねーだろ。。 組合せ最適化問題を解ければ判別問題の学習結果を
より早くより正確に得られるようになるんじゃね? 元々の話題の一例を語ってるだけに見えますが…
>>915は帰納法・演繹法何れで仕事をされているかたですか? >>916
そっちのが難しいっつーの。
>>917
両方だよ。どっちかだけで仕事になると思ってのかおめでてーな。 いよいよ人間超え、AI最新事情 文章読解でもAIがついに人間超え、グーグルの「BERT」発表から1年で急成長
2019/11/13
文章読解でもAIがついに人間超え、グーグルの「BERT」発表から1年で急成長
かつてはディープラーニング(深層学習)の適用が難しいと言われていた自然言語処理の分野でも、人工知能(AI)が人間の認識精度を上回るようになった。
グーグルが2018年10月に発表したBERTは、文章の「言語らしさ」を予測する言語モデルを「Transformer」というニューラルネットワークを多段に重ねて実装したものである。
言語らしさの予測は、AIが単語や文章を理解したり自然な文章を生成したりするうえで必要不可欠な要素である。
言語モデルの応用先としては、機械翻訳や機械読解、質問応答、言葉の言い換え(換言)、表現が異なる2つの文章の意味が同じかどうかの判断(含意関係認識)などがある。
グーグルのBERTは自然言語処理の世界に衝撃を与え、論文の発表からわずか1年で2200件以上も他の論文に引用されるほどになった。
これは、BERTが応用に関するベンチマークで人間の精度を上回る成果を上げたからだ。
文章読解のスコアで人間超え
具体的には機械読解のベンチマークである「SQuAD 1.1」で人間の精度を上回った。
SQuAD 1.1は米スタンフォード大学が作ったベンチマークで、「Wikipedia」の中にある140単語ほどの文章を読み解かせて、その文章に関する質問に回答させる。
正答は元の文章の中にフレーズとして存在する。正答の部分を正しく抜き出せるかどうかがポイントとなる。
SQuAD 1.1はタスクとして単純すぎるという指摘もある。
SQuAD 1.1よりタスクの難易度が高いベンチマークは「SQuAD 2.0」や「GLUE」など他にもあり、そうしたより難しいベンチマークではBERTは人間を上回れなかった。
しかしBERTが一部でも人間をスコアで上回ったことから、この分野の研究が一気に加速し、今ではBERTを改善した手法が、より難しいベンチマークでも人間超えを果たすようになった。
https://tech.nikkeibp.co.jp/atcl/nxt/column/18/01056/111200002/ この手のテストに和文が無いからいまいちよくわからん MSRの連中が描いた本(pdf)だってさ
Foundations of Data Science
https://www.cs.cornell.edu/jeh/book.pdf
日本の研究者はなーんもしない >>868
1 + 1 は 2 にはならんよ
大抵の場合 2 未満で 1.5 とか 1.0 とか
酷い時には 1 未満になることの方が多い >>908
ガチ勢は一般相対性理論なんて言わない。ゲージ曲率かファイバー束における写像の捻れで語る まあ、学生さんはデータナンちゃらリストなんてうつつ抜かしてないで、各専門の基礎教科の習得に励みましょう。
機械学習なんてあくまで多数ある問題解決手段の1ツールに過ぎない。そもそも機械学習の習得なんて社会人からでも十分。 数年後には無くなってそう>>データサイエンティスト データを元に業務上の判断をするのがデータサイエンティストの仕事
これは技術者にとって本質的な能力なのでデータサイエンティストという呼び名が無くなったとしてもこの能力を必要としなくなるわけではない データを元に判断するのは、豊臣秀吉もやってたそうだから今更感 技術者にはもともとデータサイエンティスト的な要素があったのに、それだけが妙に持ち上げられた
そのうち、訳もわからずデータをライブラリにぶち込むだけの人をデータサイエンティストと蔑むことになるよ データサイエンティスト的なタスクって、
業務に携わってる奴がやるのが世界の普通のような
システム屋にやらせるから応用範囲が限定される 若手の自称データサイエンティストと話すと
linuxわかりませんとか言う人マジで多くて嫌になる
どこがのスクール出身なのか?
クラウドのjupyter notebook上でしかコード書いたことないらしい
マジで基礎がガバガバ
そこを身につけるのは地味で退屈だから最近の人はやりたがらないのはわかるが ツールの話でマウントとろうとすると僕は馬鹿ですって自己紹介してるのと同じだからやめた方が良いよ 分析から先の仕事メインならlinux知らなくてもいいかなと
技術者でなく、ただのビジネスマンだと思うが リモートサーバにコード投げて動かすときくらいしかまともにlinuxコマンド使わんわ
vscodeで開発してるからvimも最低限しか使えない 自前で動かそうとしたらLinuxはあったほうがいいよ >>941
プロダクションで動かすコードにするまでにすごい苦労しそうだな
(自称)データサイエンティストとSI屋の間に、もう一人両方の分野を知ってる人間がいないと無理そう データサイエンス系の仕事手伝ってるけどSI屋が分析より下のレイヤーやるようになりそうな雰囲気
ETLとかの延長で出来るところまで >>947
ウチはジョブキュー使ってコマンドで投げるから
最低でも一連の学習処理をシェル化して
入力ファイルを配置してサブミットするというのができないと詰むんだけど
大したことではないはずなのにわかりませんとかさあ msの技術力を侮ってはいけない
いずれexcelに付くよ そら小規模データならエクセルでも可だろうけど
ちょっと大きいデータ扱うと重たくてどうしようもないしょ >>943
少し前にexcelのマクロ言語にPythonを採用するとか言う噂が上がってたけどな
今はその話は無くなってPythonからexcelを操作してくれってことになってると思う >>949
社内ルール的なものはマニュアル作れば解決する問題だと思うけど
その判らない人に作るように言って判らないところは仮で書いてもらって訂正すればいいのでは? >>952
表示の更新とか完了するまで再計算を停止するとスピード上がる ピボットテーブルとかはexcelの方が作業効率良くない?
GUIで操作できるし 議論するつもりはないけど、前処理やらバッチ処理するのもエクセルでやるんかな VBAで数値積分する人もいるから、ありえる
jupyterの人も増えそうだけど >>933
誰でもタイピングする様になってタイピストが居なくなったように、データサイエンティストもなるかもね >>941
jupyter使いは信用するなってのがこの業界の鉄則だぞ。 filemakerとかkintoneの流れでexcellって消えていくのかと思ってた。
pythonも使えるようになってるっぽいし、pandasとかRとGUIが融合したみたいになっていくのか。 Linux板でよくExcel対スパコンみたいな話してるけどな。
Excelはスパコンより性能が低いからもうWindows使わないみたいな。 スコップとショベルカーみたいな関係かね。
自分は重機好き?だからWindows使いたくないんだけど、仕事ではWindows上でVirtualBox動かしてlinux+dockerしてる。
退勤時間はexcelで集計したりしてる
適材適所やね Excelはあくまでデータとビューが同時に確認できることがメリット
明らかに一画面に収まらないぐらい大量のデータや大量のグラフが必要になるものをExcelで処理している時点で使い道を誤っている
一画面に収まらないなら素直にデータとビューを分離できる仕組みで処理すべき >>965
そんで、最終的に
Excelでレポートにする
単に、適材適所と思わん? ライブラリ使わずに自分でAIプログラム書きました
といわれても、プログラムが信用できへんで Excelのシートは業務のノウハウそのものなので、使われてきたシートのせいでシステム化が出来ないというのなら、インテグレータとして失格だと思うというか、普段なんでお金貰えてるの?と不思議に思う。
OAと言ってた頃はまさに詐欺で飯食ってたけど。
いま同じことしたら普通に詐欺で訴えられると思う。 ≪株式会社学情 調査≫
『2020年卒 就職人気企業ランキング【速報】』
http://service.gakujo.ne.jp/files/7415/5374/1191/2020_ranking.pdf
IT・ソフトウェアの最上位
26位 アマゾンジャパン
AIとか若い奴は興味ないんだろうな 日本企業の技術系なら理系であれば何学部出身でも採用の可能性があるが
GAFAみたいな外資だと情報系で修士か博士取っていないと門前払いだからそもそも応募資格のある人数が圧倒的に少ないので仕方がない >>970
まー日産っていう大きい会社のカリスマ経営者と言われている英雄ですら
ペテン師みたいなもんだからな
大量に解雇して金をこっそり奪い取るんだ!ぐらいの気持ちが無いと
金持ちにはなれんぞ >>972
日本企業の IT・ソフトウェアで人気なのは52位のSkyだな
次が54位の楽天
次が99位のLINE 20年前のgoogle考えたら、今はちっこいベンチャーなとこ(日本じゃなくて)行かんとダメなんじゃねーの? 若いのになんでこんな保守的なんだろうなw
金儲けしたい訳でもなさそうだし
おじさん世代からすると今の若い奴なんていくらでも
多様な道があると思うのだが >>972
イオヌッツは修士出てなかったが。
ちなみにイオヌッツは断った。 >>975
アメリカだと本当に優秀な人はとっとと起業する
GAFAみたいな既に出来上がった大企業に行くのは起業できるだけの能力とアイデアが無かった二流という感じ 東大卒でGAFA行くの勿体ないよね
すぐ辞めて起業するならいいけど
昔官僚、今GAFAで、ノーベル賞少ないところを見ると目先の金に計算高いという特性が透けて見える ノーベル賞にCS分野はないぞ
チューリング賞ならGAFAから出てるじゃないか むしろGAFAは目先の金に囚われずに基礎研究にもかなり注力している印象だが 東大卒で研究するためにGAFA行くって人増えてるかな
それならそれでいいんだけど、研究より金を優先させてる人が多い印象だったのよね >>983
GAFAですら結果出してのは一握りの人だけだから
日本の企業と人材では到底無理だろうね
一昔前は日本のメーカーがそういうことして
結果も出てたのになあ >>976
頭が良くなったんじゃないか?
使い捨ての知識を植え付けられ会社の為
一時の利益に貢献させられるより
食いっぱぐれない食品関係に長く居た方がいいっていう
起業と言っても大半は失敗する訳で
その中の本当にごく僅かな人が運的要素により成功しているが
そんな割にも合わないものにチャレンジするより安定して長く居られる会社に就職した方がいいっていう >>972
Googleは学歴不問になったはず
入社テストが上手く出来てりゃ、最終学歴で振り分ける必要が無いので、新しい主流 誘導かかってない↓こっちのスレのほうがほんのちょっとだけ先にたってるな
【統計分析】機械学習・データマイニング27
http://mevius.5ch.net/test/read.cgi/tech/1578890891/ >>991なるほど990はスレ設定失敗してる不良品なんだな。
じゃあみんな↓を使おうぜ
【統計分析】機械学習・データマイニング27
https://mevius.5ch.net/test/read.cgi/tech/1578892284/
1578890891のほうは、ノーレス放置で落とそう。 このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 120日 11時間 20分 29秒 5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/
▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php レス数が1000を超えています。これ以上書き込みはできません。