7月12日,國際科技界傳來新動態,谷歌正借助其先進的Gemini AI系統,深化對旗下機器人的訓練,旨在顯著提升它們的導航能力和任務執行能力。DeepMind機器人團隊最新發布的研究論文,詳細闡述了如何利用Gemini 1.5 Pro的強化長上下文窗口功能,極大地優化了用戶通過自然語言指令與RT-2機器人交互的體驗。
這一創新技術的核心在于,機器人首先通過拍攝并分析家庭或辦公室等指定區域的視頻,利用Gemini 1.5 Pro的強大能力來“學習”并理解其所在環境。隨后,機器人能夠基于這些視覺信息,靈活運用語音和/或圖像反饋,執行用戶的復雜指令。例如,當用戶詢問“我在哪里可以給手機充電?”時,機器人能迅速識別環境,并引導用戶至最近的電源插座。
據DeepMind透露,在覆蓋超過9,000平方英尺的測試區域內,這些由Gemini驅動的機器人成功響應并完成了50多項不同用戶指令,成功率高達90%,展現了極高的準確性和效率。
更令人振奮的是,初步研究還揭示了Gemini 1.5 Pro賦予機器人的額外能力——即除了精準導航外,還能規劃并執行更為復雜的任務指令。例如,面對詢問是否有特定飲料的用戶,機器人能夠自主決定前往冰箱檢查,隨后返回并報告結果,這一連串動作展現了其強大的決策與執行能力。
盡管在視頻演示中,機器人對每條指令的迅速確認給人留下了深刻印象,但研究報告也誠實地指出了背后隱藏的“秘密”——處理這些復雜指令實際上需要10至30秒的時間。這表明,盡管技術進步顯著,但實現完全無縫的人機交互仍需時日。
不過,這一系列的進展無疑為我們描繪了一幅未來生活的美好圖景:或許不久的將來,我們就能與這些高度智能化的機器人共享家園,讓它們幫助我們找到遺失的鑰匙、錢包,甚至是執行更多日常生活中的瑣碎任務,極大地提升生活的便捷性與舒適度。
-
機器人
+關注
關注
211文章
28640瀏覽量
208395 -
谷歌
+關注
關注
27文章
6194瀏覽量
106012 -
AI
+關注
關注
87文章
31513瀏覽量
270308
發布評論請先 登錄
相關推薦
評論