Bagaimana AI Mengubah Strategi Poker: Belajar dari Nash Equilibrium dan Exploitation

Bagaimana AI Mengubah Strategi Poker: Belajar dari Nash Equilibrium dan Exploitation

Dalam beberapa tahun terakhir, teknologi artificial intelligence (AI) telah berkontribusi besar pada penemuan strategi baru dalam permainan poker Texas Hold'em. Meski demikian, AI tidak bekerja dengan solver, dan untuk sebagian besar, mereka mendapat ditinggalkan.

AI telah membenarkan beberapa kebijakan umum tentang strategi poker yang lebih baik, serta menggulingkan beberapa ajaran yang dimiliki pemain. Misalnya, komputer berhasil dalam "donk betting" – menginisiasi taruhan pertama pada putaran taruhan setelah hanya memanggil taruhan lawan pada putaran sebelumnya – walaupun kepercayaan rakyat bahwa donk betting adalah gerakan amateur.

AI juga bermain variasi tangan yang lebih luas dalam situasi di mana para pemain ahli cenderung mengundurkan diri. Seperti mesin catur, solver poker multiplayer tidak secara literal bermain secara optimal, tetapi mereka dominan terhadap manusia hingga kita memiliki banyak hal untuk pelajari dari mereka.

Cara Menang

Dalam mendefinisikan Nash equilibrium, saya menyembunyikan rincian kritis: keseimbangan terjadi ketika tidak ada pemain yang akan menguntungkan dengan deviasi dari strategi yang dipilih (mengasumsikan lainnya tidak berdeviasi). Ketika lainnya berdeviasi walaupun demikian, maka seringkali bijak untuk berdeviasi dalam tanggapan.

Contoh yang baik adalah permainan rock-paper-scissors. Apa strategi Nash equilibrium-nya? Berpikir sejenak: apa strategi dari kedua pemain yang akan meninggalkan tidak ada insentif untuk deviasi? Jawaban: pemain harus melempar batu, kertas, dan gunting secara acak; masing-masing memiliki peluang sepertiga terjadi, tidak peduli dengan semua putaran sebelumnya. Anda dapat mengumumkan strategi ini kepada lawan di awal, dan mereka akan tanpa daya untuk menangkap kecanduanmu.

Jika Anda dan lawan bermain strategi keseimbangan ini, maka Anda dapat menunggu menang setengah dari putaran putusan (mengabaikan seri). Sekarang, suppose lawan deviasi. Dalam kasus ekstrem, bayangkan mereka selalu memainkan kertas. Jika Anda tetap dengan strategi keseimbangan ini, maka Anda masih akan menang setengah dari putaran putusan karena Anda memainkan gunting yang menang dan batu yang kalah dengan frekuensi yang sama. Namun, Anda dapat mengantisipasi deviasi lawan dengan selalu memainkan gunting dan memotong kertas mereka pada setiap putaran. Deviasi yang kurang dramatis masih memberikan peluang untuk eksploitasi.

Poker

Dinamika yang sama berlaku dalam poker pada skala yang lebih kompleks. Saat pemain belajar teknik yang lebih baik dari kolaborator AI, maka mereka juga belajar bagaimana menciumkan kembali ketika lawan jatuh pendek optimal play dan bagaimana menghukumnya.

Mungkin Anda berpikir bahwa ada perangkap di sini. Jika lawan deviasi, apakah tidak adil untuk mengeksploitasi mereka dengan keras daripada tetap mempertahankan strategi keseimbangan dan meninggalkan potensi uang pada meja? Jika Anda menemukan bahwa lawan deviasi dari strategi Nash equilibrium dalam cara yang prediktif, maka deviasi sendiri untuk mengantisipasi kelemahan mereka mungkin memberikan Anda lebih banyak uang. Dengan segera Anda mengeksploitasi mereka, namun, Anda sekarang berdeviasi sendiri dan membuka diri untuk eksploitasi.

Seperti yang dikatakan mantan pro poker Igor Kurganov, "setiap kali Anda menemukan kesalahan lawan, Anda meningkatkan model bagaimana mereka memikirkan permainan, mengubah cara bermainmu melawan mereka untuk mengaccount kekurangan itu dan, dengan demikian, menjadi eksploitasi diri sendiri."

Banyak pemain setuju bahwa untuk tetap kompetitif pada tingkat tertinggi poker, Anda harus menggunakan kombinasi teorai permainan optimal dan eksploitasional. Optimal lebih defensif, sementara eksploitasional lebih agresif.

Pemahaman

Dalam beberapa tahun terakhir, teknologi AI telah berkontribusi besar pada penemuan strategi baru dalam permainan poker Texas Hold'em. Meski demikian, AI tidak bekerja dengan solver, dan untuk sebagian besar, mereka mendapat ditinggalkan.

AI telah membenarkan beberapa kebijakan umum tentang strategi poker yang lebih baik, serta menggulingkan beberapa ajaran yang dimiliki pemain. Misalnya, komputer berhasil dalam "donk betting" – menginisiasi taruhan pertama pada putaran taruhan setelah hanya memanggil taruhan lawan pada putaran sebelumnya – walaupun kepercayaan rakyat bahwa donk betting adalah gerakan amateur.

AI juga bermain variasi tangan yang lebih luas dalam situasi di mana para pemain ahli cenderung mengundurkan diri. Seperti mesin catur, solver poker multiplayer tidak secara literal bermain secara optimal, tetapi mereka dominan terhadap manusia hingga kita memiliki banyak hal untuk pelajari dari mereka.

Dalam akhirnya, AI telah memberikan kontribusi besar pada penemuan strategi baru dalam permainan poker Texas Hold'em. Namun, penting untuk memahami bahwa strategi Nash equilibrium tidak hanya berlaku untuk permainan rock-paper-scissors, tetapi juga dapat digunakan dalam permainan lainnya yang lebih kompleks.

Dengan demikian, kita dapat belajar dari AI dan meningkatkan kemampuan bermain poker Anda.