Thinking Machines Lab 發布互動模型 (Interaction Models) 的研究預覽版,這是一種能夠原生處理交互,而非依賴外部框架,該模型讓人們能夠像彼此自然協作一樣與人工智慧協作——它們持續接收音訊、視訊和文本,並即時思考、回應和行動。
Thinking Machines Lab 相信可以透過讓 AI 即時互動到任何模態來解決頻寬瓶頸問題,AI 介面能夠真正貼合人類的需求,而不是強迫人類扭曲自身來適應 AI 介面。
互動模型 (Interaction Models) 能力
- 無縫對話管理: 該模型能夠隱式地追蹤說話者是在思考、讓步、自我糾正還是邀請回應。無需單獨的對話管理元件。
- 口頭和視覺上的介入: 該模型會根據上下文按需介入,而不僅僅是在用戶說完之後。
- 同步語音: 使用者和模型可以同時說話(例如即時翻譯)。
- 時間感知能力: 該模型具有對時間流逝的直接感知。
- 工具呼叫、搜尋和生成式使用者介面同時進行: 在與使用者對話和聆聽的同時,模型可以同時進行搜尋、瀏覽網頁或產生使用者介面,並根據需要將搜尋結果融入對話中。
互動模型 (Interaction Models) 採用微輪次機制,持續交錯處理 200 毫秒的輸入與產生 200 毫秒的輸出。輸入和輸出令牌均被視為資料流,而非消耗完整的使用者輪流並產生完整的回應。以 200 毫秒為單位處理這些資料流,可實現多種輸入輸出模式的近即時並發。
互動模型 (Interaction Models) 不採用大型獨立編碼器處理音頻和視頻,而是選擇預處理量最小的系統,許多全模態模型需要訓練單獨的編碼器(例如 Whisper 類別模型)或解碼器(例如 TTS 模型),Thinking Machines Lab 則將音訊訊號作為 dMel 格式(Bai 等人,2024)接收,並透過輕量級嵌入層進行轉換,影像被分割成 40x40 的影像區塊,並使用 hMLP(Touvron et al. 2022)進行編碼,音訊解碼器採用串流頭(Lipman at al. 2022)。
現今的商業即時 API 透過純音訊對話管理機制進行輪次偵測,它們能夠回應語音指令,但無法在視覺環境變化時主動選擇是否發言。
Thinking Machines Lab 採用了三個基準來評估我們模型的視覺主動性:
- RepCount-A 包含重複動作的視頻,並被改編成一個線上計數任務。
- ProactiveVideoQA 由帶有問題的影片組成,答案會在特定時刻顯示。
- Charades 是一個標準的基於時間的動作定位基準測試。
局限性和未來工作
- 長時間會話: 持續的音訊和視訊會迅速累積上下文資訊。
- 計算與部署: 低延遲的音訊和視訊串流傳輸需要可靠的網路連線。
- 對準和安全: 即時介面為對準和安全領域開闢了一個令人興奮的研究方向。
- 擴展模型規模: 目前模型 TML-Interaction-Small 是一個包含 2760 億個參數的 MoE,其中 120 億個參數處於啟動狀態。
- 改進的後台代理: 雖然本文主要關注即時交互,但代理智能也是一項至關重要的能力。
https://kopyai.com/zh-tw/latest/view/type.news/0/70
Thinking Machines Lab, "Interaction Models: A Scalable Approach to Human-AI Collaboration",
Thinking Machines Lab: Connectionism, May 2026.
Picture Source
ThinkingMachinesLab

留言
張貼留言