▲コンピュータ将棋スレッド132
■ このスレッドは過去ログ倉庫に格納されています
>>159 この内容が分からないというのは開発能力がないひまわりか >>171 んじゃ、わかってるようだから追加で説明を頼むわ。 どうして>>154 - >>157 の説明で山本さんがだいたいあってるといえるのか、 要点をかいつまんで解説してくれ。 まぁ、どうせわかってないんだろうけど。 149 名無し名人 (ワッチョイ bfdc-VW3n) sage 2018/02/03(土) 22:33:05.02 ID:WFL8HojI0 ポナ山さんは前言撤回することになんら躊躇をしない人間だから、 重箱の隅をつついても何も意味がないかもしれない。 https://www.axfc.net/u/3885896 https://www.axfc.net/u/3885897 評価関数を2つ公開します どちらもまだ検証が不十分ですが、aperypaqにはやや勝ち越せるのではないかと思います 同じ局面でもaperypaqとかなり評価が異なることがしばしばあるので中々面白いです 興味のある方は検証や改造などして遊んでみてください 検証して下さる方がいれば期待できそうな方の評価関数を絞ろうと思います ※後手番で希にあっという間に不利になる手順に飛び込むことがあるのでご注意下さい >>175 やっぱお前も内容わかってないんじゃんw >>156 訂正; 誤: P = 3_C_1 * p * (1-p)^2 + 3_C_2 * p^2 * (1-p) + 3_C_3 * p^3 正: P = 3_P_1 * p * (1-p)^2 + 3_P_2 * p^2 * (1-p) + 3_P_3 * p^3 誤: (一致後の事後)確率は1/(ハッシュキーの総数) 正: (一致後の事後)確率は1/(ハッシュキーの総数/(2^16 * (置換表のビン数))) (∵エントリの特定に至った時点でハッシュキーの最上位16 bitと置換表のビンの数にあたる下位bitは一致がもともと確定 ■ 具体的数値 ハッシュキー64 bit(で局面の識別に十分と仮定)、 最上位16 bitのみ等値比較、ビンの中の3エントリがどこも満杯とする。 置換表サイズ(ビン数) p P r 衝突頻度(=1/(P*r)) -------------------------------------------------------------------------------- 64 K 1.53e-5 4.58e-5 1.00 2.18万回に1回 512 M 1.53e-5 4.58e-5 1.00 2.18万回に1回 ※ pとPは置換表サイズに拠らない。(ビンの中に3エントリかつエントリ特定にハッシュキーの16 bit等値比較、で確定 ※ rは上で訂正した「(一致後の事後)確率」の逆数で、エントリ特定済条件での衝突確率。置換表サイズ依存だが64 K v.s. 512 Mでは差が出ない。 →2.18万回に1回衝突とか使い物にならない。>>133 の置換表は満杯になるような使い方をしてはいけない 置換表サイズに対する勝率は、「どのビンにも空きエントリがある」が満たされた時点で頭打ちになる(そこから先はいくら置換表を大きくしても勝率が伸びない)と予想 >>173 もう少し対局追加してみているのですが、 今度は15gouが勝ち星リード(57%程度)しているので 対局数が500局くらいでないと結果でないかもです。 15gouが強いのは間違いなさそう。 この「最高R」に途中経過でも勝ち越せるソフトは過去いなかったので。 >>129 こちらの環境では1手1500ノードで有意差なさそうです でも公開してくれてありがとうございました >>163 Raina_i3 mixE_i3の人ではなさそう あの人、一個も評価関数公開しなかったし >>176 早速ダウンロードさせていただきました、ありがとうございます >>182 訂正1500→1500万 >>181 >>129 はより深いノードで実力発揮するのかもしれませんね 要検証か 15gou VS testeval 503-21-482(一手200万ノード) https://i.imgur.com/pk38kQM.jpg お強いですね。 >>184 testevalは前スレの259?それとも自作? 前スレ259です。ノード数が少ない場合にはまあまあ強さを発揮していると考えてるので 毎回対局結果すらキャプしない馬鹿と 0.1秒とかでドヤッてるガイジは何も学習しないんだな >>176 を少しは見習え 水門でクジラちゃんが19gou=kakarotにふっ飛ばされた件 (ただし定跡どハマりだった模様) >>184 windowsユーザーってこんなフォントで発狂しないの(´・_・`) ? >>188 2戦目は定跡抜けた後のがっぷり四つから、一手の読み勝ちでカカロットの勝ち。 (読み筋はどちらも同じで評価だけ違った) まだ対局回数が少ないとは言え、R4400を狙える力はあるのかも。 今までのやり方でAlphaZeroに迫っているのを見ると、それだけ将棋は探索の効果がでかいということだろうか それともこっそりDLが混じってるとか? そもそもAlphaZeroの結果が謎が多すぎる。 なんでそんな簡単にelmoのすぐ上に行けたのか、なんでそこで止まってしまったのか。 YSSの人がレーティングと実際の勝率について書いてたけど、コンピュータも人間もレーティング差が大きいとeloレーティングに基づく勝率よりも5割に近づく 実際のAlphaZeroはもっと強い可能性がある レート自体は自己対戦から出してるとのことだから相対的に控えめに出てる可能性もある? とりあえず多めにR4600と見つもっておこう。 いっそ計測はelmo基準にすれば良くない? 対elmo特化の戦績だとしても その方がAlphaZeroの棋風を擬似的に再現してる可能性という意味で需要あるし >>196 AlphaZeroグラフ自体は自己対戦からだろうけど、縦軸の数値はuuunさんのサイトとelmoとの対局で当てはめたものだと推測 とはいえ30万ステップ以降のグラフの伸びがほぼ横ばいでそれでいて不安定なのは間違いないですね 混ぜると強くなる理由 https://github.com/gcp/leela-zero/issues/814#issuecomment-362931617 Averaging weights from nearby networks decreases noise from mini-batch gradient calculations. If the network is very near the optimum then the weights don't change much during the training and we can think that the network weights are the optimal weights plus some noise caused by the stochastic gradient calculation. Averaging the weights decreases the amount of noise in weights and brings the network closer to the optimum. Same effect can be had if learning rate is decreased. だって 学習率下げた時の段差と関係あったのか そもそも学習率はあまり大きくするべきではないんですよね、収束までは遅くなりますけど elmo絞りをするならなおのこと学習率は小さくするべきだと思います 学習率をただ下げてもダメだそうだぞ。 線形評価関数ではないが、DeepLearningの世界では小さすぎる学習率は局所解に収束してしまう要因として挙げられている。 >>119 機械学習の専門家はいつもこんなこと議論してるの? コンピュータ将棋にもこういうコミュニティはないのかしら そろそろコンピュータ将棋もチェスみたいに引き分けが多くなるのではないか、という件について 先手勝率が上がって引き分けはさらに多くなるでしょうね 今の時点でも少し長めの時間で100局やれば10〜15局くらいは千日手になりますし AlphaZeroが本格的にそういう領域に入ってきてるとすると、数値以上に壁が高い かもしれない。 自己対戦の先手後手の勝率も知りたいものだ Stockfish 9が2月1日にリリースされた SILENT_MAJORITY 1.26がでるかも? >>209 魔女は長いことアップデートされてないから、stockfishの 正規アップデートとは関係なしにそろそろあるんじゃねとは思うが 藤井五段も悪いよ 人間将棋からCOM将棋に興味が移っていた層が ごっそり人間将棋の観戦に戻っちゃった PV下降中のsuimonさんが嘆いているスレはここですか? 検証が必要なもの >>129 >>176 48 @bleu48 YaneuraOuをWSL上でclang使ってビルドするだけで5%近く速くなるな。電王トーナメント前の比較だとほとんど変わらなかったんだけど そもそもCOM将棋に興味が移った層が極少数 その極少数がごっそり移動しようが大差ない というか別にこの時期はいつもこんなもんだろ 特に大きなトピックもないし Pona本も引退だし、Googleは表出てこないしで具体的な目標が無くなってるので停滞も仕方ない WCSC28のエントリーも出揃ったし、キャンセルが出たりテストが水門に出てこなければ 過疎はむしろ当然。 山本はなんで引退したの? 将棋プログラムしか組めない人なんでしょ? >>223 PFNが来たから下山さんを切る→elmo大勝利 電王戦で捲土重来?→タヌキに化かされて無事死亡 おぉ、もう そういや、将棋ウォーズのPonanzaの使用料、下山さんちゃんともらえてるんだろうか? コンピューター将棋はカツ丼将棋が全自動対局ツール作ったところでもうやれる事はいきついた気がする カツ丼さんの全自動対局ツール、やねさんが貢献してるらしいね。やねさん、あまり時間もやる気もないみたいだけど、他の開発者に協力を惜しまない姿勢は素晴らしいね。 今のエッセイは単純につまらん。どっかで聞いたような話しかしてない。 コードのアウトプットをしてるプログラマーならそれでも興味持てるが 専業ポエマーでは話にならん。 あから2010の段階で羽生を上回ってなかったか? 情報処理学会が名人と互角以上って言ってるのに清水を出してきた 対局も、あれは清水がミスったというかフルボッコだった あからってレート2800くらいだから、勝率で羽生さん越えはないな。 だけどあの当時のコンピュータに対する舐めた考え方のままだと、初見は絶対勝てなかったとは思う。 2012年のGPSクラスタで当時の羽生か渡辺を超えたかどうか、くらいが目安。 >>233 c1時代の三浦に七冠崩されたりしてたし、一発勝負ならかなりの確率で負けてたと思う みうみうがやられた時は絶望感凄かったな 実際はまだまだだったけど 対戦成績を見ると 対ソフトは棋力よりも若さが大事っぽい 30歳近くになると新しい将棋に対応するのは困難みたいだね クジラちゃんもそうだけど、勝ってるときの大規模クラスタはとんでもない位置から読み切っちゃってるから、実力以上に謎の絶望感がある。 なお負けるときはとんでもないポンコツ まふ定跡最新版については信頼はしているので、 ohgaさんがどこまで思考部を鍛えられるかじゃないかなあ。 先週水門に投入した(まふ関数?)のは普通に野良関数に読み負けてたし。 それに打倒ponanza・技巧が消えて、去年ほどの計算資源が提供されるかどうかも。 >>239 去年のクジラちゃんレベルまで計算資源が集まると、負けもそこまでポンコツじゃない。 まふ定跡をきっちり2回メタられたelmoと、うかむ瀬評価関数の限界が出た2回のponanzaと、 だからね(技巧戦の負けはコインの裏表のような気がする) keep alive? >>231 そもそも赤らは単独ソフトよりレート低かったし 囲碁ソフトのオープンソースのプロジェクトでアルファ碁と同じ学習サイズのVN作った人がいるんだけども、300Mない。 恐らくAlphaGoのValuenetもそれくらいにおさまるんじゃないかと思う。 これに比べて将棋のKPPT評価関数はものすごくファイルサイズでかいよね? 表現力が飽和してると言われてるけれども、実はものすごく大雑把につじつま合わせをしてるだけで、細かくズームしていくとほとんど出鱈目なんじゃないだろうか? KPPTのパラメータのほとんどはゴミってQhapaqさんが 時代はKPP_KKPTですぜ兄貴 合成なしでもAperyクラスに到達出来るようだし やたらKPP_KKPT推してる人なんなんだ? 読ませれば読ませるほどKPPTのほうが優秀だというのに せっかくあるKPPTのパラメーターを生かしきれてるかというと怪しいとは思う depth20で500億教師とか用意できればわかるんだろうが無理あるしな 囲碁の方が局面評価難しいってのが間違いの可能性はある。 囲碁の方が枝数が多いのは事実。 ニューラルネットのパラメータ数は線形のパラメータ数とは同列に比較できないから。 ニューラルネットは縦にパラメータを積むことによって、パラメータ同士の組み合わせが増えるから その分横一列の線形パラメータよりも少ない数で表現力を増やせる。 >>176 あなた開発者じゃないと思うけど、あなたの公開したaとbの評価関数は良いね。しかも 性質の異なる2種類だし、キメラじゃないのはすぐに分かったよ。キメラもせずにどう やってここまで強く出来たのか不思議。絞って強くしたのは間違いないし、また公開し て下さい。あなたシボラーの天才かも。 確かに>>176 の関数強そう 難解な局面で検討に使いたいだけのライトだから、計測ガチ勢ではないが 少し対局させて様子をみている程度の印象では強い 検討モードのメインエンジンをを変えることにした 感謝 >>253 次の選手権の新規参入勢の可能性も高いと思うぞ >>245 CNNもLPも、教師データ群との誤差を最小化するように、おおざっぱに つじつまあわせるための仕組みですよ。 局面と、その評価値の組み合わせに、仮に全体に序列の整合がとれた 正しい対応関係があるとして(たぶんある)、その理屈の上でしか存在 しない関数に近似で近づけていくのが学習であり、現実の評価関数に 求められているのは、万能近似関数であります。 また、そのような雑な評価関数で間違った判断をしないために、深い探索 が必要となります。完全な評価関数があれば、深さ1の探索で十分なはず。 >>253 キメラじゃないって見分ける方法ってどうやるの?? >>254 良く見たら評価関数じゃなくてエンジンのほうを替えてて草 うちのパソコンアップデートしてみたけど性能低下は感じませんでした IntelCPUですWindows10です 皆様はいかがですか? そ〜んな あ、な、た、に らびゅらびゅ I love you らびゅリン娘 評価関数の圧縮については何も進展ないな 保木さんの「3駒でいいんじゃね」から一歩も進んでいない >>261 2駒でも強化学習すれば大丈夫でね?的な実験はseleneの人がやってるらしいよ。 欲を言えばgoogle先生には3駒にも同じくらい投資をしたうえで比較してほしかった。 コンピュータ将棋界隈にしか需要が無いけど 実際のところぶち込む計算リソースを考えれば三駒で必要十分だったわけで >>263 それだと三駒がかなり強くなってしまって宣伝にならないから絶対やらないな shivorayで教師データ作る時にどの評価関数を使うのがベストか、depth 6で固定して対局させてみた(YaneuraOu4.80使用) 自作の学習用オリジナル定跡を使用して、Contempt 90にしているので他の人が同じような結果になるかは不明です testeval vs wakame 586- 9-607 (勝率50.88%) wakame vs 15gou 557-10-635 (勝率53.27%) aperypaq vs 15gou 569- 4-629 (勝率52.5%) a vs 15gou 579-12-611 (勝率51.34%) b vs 15gou 589- 5-608 (勝率50.79%) というわけでdepth 6では全て勝ち越した15gouを使うのがベストという結論になった 15gou教師で学習させて強くなるかはまだ試してないので分からない (depth 10は教師データ作る気しないので調べなかった) ■ このスレッドは過去ログ倉庫に格納されています
read.cgi ver 07.5.4 2024/05/19 Walang Kapalit ★ | Donguri System Team 5ちゃんねる