Tại sao DeepMind lại gửi hình người AI đến Trại bóng đá

[ad_1]

Cài Win online

Nicolas Heess, cũng là một nhà khoa học nghiên cứu tại DeepMind, và là một trong những đồng tác giả của tờ báo với Lever cho biết: “Điều này không thực sự hiệu quả. Vì sự phức tạp của vấn đề, rất nhiều lựa chọn có sẵn và thiếu kiến ​​thức trước về nhiệm vụ, các đặc vụ không thực sự biết nên bắt đầu từ đâu — do đó, quằn quại và co giật.

Vì vậy, thay vào đó, Heess, Lever và các đồng nghiệp đã sử dụng phương pháp vận động nguyên thủy xác suất thần kinh (NPMP), một phương pháp giảng dạy thúc đẩy mô hình AI hướng tới các mô hình chuyển động giống con người hơn, với kỳ vọng rằng kiến ​​thức cơ bản này sẽ giúp giải quyết vấn đề làm thế nào để di chuyển xung quanh sân bóng đá ảo. Lever nói: “Về cơ bản, nó thiên vị sự kiểm soát vận động của bạn đối với hành vi của con người thực tế, chuyển động của con người thực tế. “Và điều đó học được từ việc ghi lại chuyển động — trong trường hợp này là các diễn viên con người chơi bóng đá.”

Điều này “cấu hình lại không gian hành động,” Lever nói. Chuyển động của các đặc vụ đã bị hạn chế bởi cơ thể giống như con người của họ và các khớp chỉ có thể uốn cong theo những cách nhất định và việc tiếp xúc với dữ liệu từ con người thực sẽ hạn chế họ hơn nữa, điều này giúp đơn giản hóa vấn đề. “Nó làm cho những thứ hữu ích có nhiều khả năng được phát hiện bằng cách thử và sai hơn,” Lever nói. NPMP tăng tốc quá trình học tập. Có một “sự cân bằng tinh tế” cần được thực hiện giữa việc dạy AI làm mọi việc theo cách con người làm, đồng thời cho nó đủ tự do để khám phá các giải pháp của riêng mình cho các vấn đề — có thể hiệu quả hơn những giải pháp mà chúng ta tự nghĩ ra. .

Huấn luyện cơ bản được theo sau bởi các bài tập chơi một người: chạy, lừa bóng và đá bóng, bắt chước cách mà con người có thể học chơi một môn thể thao mới trước khi tham gia vào một tình huống toàn trận đấu. Phần thưởng học tập củng cố là những thứ như theo dõi thành công mục tiêu mà không có bóng, hoặc lừa bóng gần mục tiêu. Lever nói, chương trình giảng dạy các kỹ năng này là một cách tự nhiên để xây dựng cho các nhiệm vụ ngày càng phức tạp.

Mục đích là để khuyến khích các đại lý sử dụng lại các kỹ năng mà họ có thể đã học được bên ngoài bối cảnh bóng đá trong môi trường bóng đá – để khái quát hóa và linh hoạt trong việc chuyển đổi giữa các chiến lược di chuyển khác nhau. Các đặc vụ đã thành thạo các cuộc diễn tập này được sử dụng làm giáo viên. Tương tự như cách mà AI được khuyến khích bắt chước những gì nó đã học được từ việc ghi lại chuyển động của con người, nó cũng được khen thưởng vì không đi quá xa so với các chiến lược mà các đặc vụ giáo viên đã sử dụng trong các tình huống cụ thể, ít nhất là lúc đầu. “Đây thực sự là một tham số của thuật toán được tối ưu hóa trong quá trình đào tạo,” Lever nói. “Theo thời gian, về nguyên tắc, họ có thể giảm bớt sự phụ thuộc vào giáo viên.”

Với những người chơi ảo của họ đã được đào tạo, đã đến lúc thực hiện một số hành động đối đầu: bắt đầu với các trò chơi 2v2 và 3v3 để tối đa hóa lượng kinh nghiệm mà các đặc vụ tích lũy được trong mỗi vòng mô phỏng (và bắt chước cách người chơi trẻ bắt đầu với các trò chơi mặt nhỏ trong cuộc sống thực ). Những điểm nổi bật — mà bạn có thể xem tại đây — có năng lượng hỗn loạn của một con chó đuổi theo một quả bóng trong công viên: người chơi không quá chạy như loạng choạng về phía trước, liên tục trên bờ vực ngã nhào xuống đất. Khi bàn thắng được ghi, nó không phải từ những pha chuyền bóng phức tạp, mà là những cú đánh hiểm hóc đầy hy vọng và những cú dội ngược như quả bóng bay từ bức tường phía sau.

cài đặt phần mềm online
[ad_2]

Vui lòng đánh giá về dịch vụ tại nhà