Thinking Machines Lab 推出人機協作的互動模型

Thinking Machines Lab 發布互動模型 (Interaction Models) 的研究預覽版，這是一種能夠原生處理交互，而非依賴外部框架，該模型讓人們能夠像彼此自然協作一樣與人工智慧協作——它們持續接收音訊、視訊和文本，並即時思考、回應和行動。

以往的模型是在單線程環境下體驗現實的 (例如 Moshi、PersonaPlex、Nemotron VoiceChat 或 GPT-Realtime-Translate)，在使用者完成輸入或說話之前，模型會處於等待狀態，無法感知使用者正在做什麼或如何做，在模型完成產生之前，其感知會處於凍結狀態，不會接收任何新訊息，直到生成完成或中斷，這為人類與人工智慧的協作創造了一個狹窄的管道，限制了個人知識的運用。

Thinking Machines Lab 相信可以透過讓 AI 即時互動到任何模態來解決頻寬瓶頸問題，AI 介面能夠真正貼合人類的需求，而不是強迫人類扭曲自身來適應 AI 介面。

互動模型 (Interaction Models) 能力

無縫對話管理: 該模型能夠隱式地追蹤說話者是在思考、讓步、自我糾正還是邀請回應。無需單獨的對話管理元件。
口頭和視覺上的介入: 該模型會根據上下文按需介入，而不僅僅是在用戶說完之後。
同步語音: 使用者和模型可以同時說話（例如即時翻譯）。
時間感知能力: 該模型具有對時間流逝的直接感知。
工具呼叫、搜尋和生成式使用者介面同時進行: 在與使用者對話和聆聽的同時，模型可以同時進行搜尋、瀏覽網頁或產生使用者介面，並根據需要將搜尋結果融入對話中。

互動模型 (Interaction Models) 採用微輪次機制，持續交錯處理 200 毫秒的輸入與產生 200 毫秒的輸出。輸入和輸出令牌均被視為資料流，而非消耗完整的使用者輪流並產生完整的回應。以 200 毫秒為單位處理這些資料流，可實現多種輸入輸出模式的近即時並發。

互動模型 (Interaction Models) 不採用大型獨立編碼器處理音頻和視頻，而是選擇預處理量最小的系統，許多全模態模型需要訓練單獨的編碼器（例如 Whisper 類別模型）或解碼器（例如 TTS 模型），Thinking Machines Lab 則將音訊訊號作為 dMel 格式（Bai 等人，2024）接收，並透過輕量級嵌入層進行轉換，影像被分割成 40x40 的影像區塊，並使用 hMLP（Touvron et al. 2022）進行編碼，音訊解碼器採用串流頭（Lipman at al. 2022）。

現今的商業即時 API 透過純音訊對話管理機制進行輪次偵測，它們能夠回應語音指令，但無法在視覺環境變化時主動選擇是否發言。

Thinking Machines Lab 採用了三個基準來評估我們模型的視覺主動性：

RepCount-A 包含重複動作的視頻，並被改編成一個線上計數任務。
ProactiveVideoQA 由帶有問題的影片組成，答案會在特定時刻顯示。
Charades 是一個標準的基於時間的動作定位基準測試。

局限性和未來工作

長時間會話: 持續的音訊和視訊會迅速累積上下文資訊。
計算與部署: 低延遲的音訊和視訊串流傳輸需要可靠的網路連線。
對準和安全: 即時介面為對準和安全領域開闢了一個令人興奮的研究方向。
擴展模型規模: 目前模型 TML-Interaction-Small 是一個包含 2760 億個參數的 MoE，其中 120 億個參數處於啟動狀態。
改進的後台代理: 雖然本文主要關注即時交互，但代理智能也是一項至關重要的能力。

https://kopyai.com/zh-tw/latest/view/type.news/0/70

Thinking Machines Lab, "Interaction Models: A Scalable Approach to Human-AI Collaboration",
Thinking Machines Lab: Connectionism, May 2026.

Picture Source
ThinkingMachinesLab

留言

這個網誌中的熱門文章

美國公布 2025 年六月非農就業人數

美國勞工統計局今天報告稱，6 月非農業就業總人數增加了 14.7 萬人，失業率基本持平於 4.1%。州政府和醫療保健領域的就業機會增加。聯邦政府部門的就業機會持續減少。本新聞稿提供的統計數據來自兩項月度調查。家庭調查以人口統計特徵衡量勞動力狀況，包括失業率。機構調查以行業衡量非農業就業人數、工時和收入。家庭調查數據 6月份，失業率為 4.1%，失業人數為 700 萬，兩者皆變化不大。自2024年5月以來，失業率一直維持在 4.0% 至 4.2% 的窄幅區間內。在主要勞動族群中，非裔美國人（6.8%）的失業率在6月有所上升，而成年女性（3.6%）和白人（3.6%）的失業率則下降。成年男性（3.9%）、青少年（14.4%）、亞裔（3.5%）和西班牙裔（4.8%）的失業率在當月幾乎沒有變化。 6 月份，長期失業人數（失業 27 週或以上）增加了 19 萬，達到 160 萬，基本上抵消了上個月的降幅。長期失業者佔所有失業人口的 23.3%。 6 月份，勞動參與率基本維持不變，為 62.3%，就業人口比率維持在 59.7%。 6 月份，因經濟原因從事兼職工作的人數為 450 萬，基本維持不變。這些人原本更傾向於全職工作，但由於工作時間減少或無法找到全職工作，他們只能從事兼職工作。 6 月份，目前希望就業但未加入勞動力的人數基本保持不變，為 600 萬人。這些人未被計入失業人數，因為他們在調查前 4 週內沒有積極尋找工作，或無法接受工作。在希望就業但未加入勞動力隊伍的人數中，6 月處於邊緣就業狀態的人數增加了 23.4 萬人，達到 180 萬人。這些人希望工作，並且能夠工作，在過去 12 個月的某個時間點尋找工作，但在調查前 4 週內沒有尋找工作。灰心喪志的工人（邊緣就業人群中的一部分，他們認為沒有工作機會）的人數在 6 月增加了 25.6 萬人，達到 63.7 萬人。機構調查數據 6月份非農業就業總人數增加了 14.7 萬個，與過去 12 個月平均每月增加 14.6 萬個的水平持平。6月份，州政府和醫療保健領域的就業機會增加。聯邦政府的就業機會持續減少。 6月政府就業機會增加了 7.3 萬個。州政府就業機會增加了4.7萬個，主要集中在教育領域（增加了4萬個）。地方政府教育領域的就業機會持續增加（增加了2.3萬個）。聯邦政府就業機會持續減少（減少了7千個），自1月...

閱讀完整內容

DeepSeek-V3.1 發布，邁向 AI Agent

DeepSeek-V3.1 在 DeepSeek-V3.1-Base 的基礎上進行後訓練，後者基於原始 V3 基礎檢查點，通過兩階段長上下文擴展方法構建，遵循原始 DeepSeek-V3 報告中概述的方法。 DeepSeek 透過收集更多長文件並大幅擴展兩個訓練階段來擴展資料集。32K 擴展階段的標記數量增加了 10 倍，達到 6,300 億個標記，而 128K 擴展階段的標記數量增加了 3.3 倍，達到 2,090 億個標記。此外，DeepSeek-V3.1 使用 UE8M0 FP8 規模資料格式進行訓練，以確保與微尺度資料格式相容。 DeepSeek-V3.1 是一個同時支持思考模式和非思考模式的混合模型。相較於上一版本，本次升級帶來了多個方面的改進：混合推理：思考與非思考－一個模型，兩種模式更快的思考：DeepSeek-V3.1-Think 與 DeepSeek-R1-0528 相比，可以在更短的時間內找到答案更強大的代理商技能：後製訓練可提高工具使用率和多步驟代理任務 DeepSeek-V3.1 模型提升了工具使用、程式碼生成和推理效率，在高難度基準測試中實現了與 DeepSeek-R1 相當的效能，同時響應速度更快。它支援結構化工具呼叫、代碼代理和搜尋代理，適用於研究、編碼和代理工作流程。工具和代理程式升級在 SWE / Terminal-Bench 上獲得更好的結果針對複雜搜尋任務的更強大的多步驟推理思考效率大幅提升模型更新 V3.1 基礎：在 V3 基礎上繼續對 840B 個 token 進行預訓練，以進行長上下文擴展 Tokenizer 和聊天範本已更新 - 新的 tokenizer 設定： https://huggingface.co/deepseek-ai/DeepSeek- V3.1/blob/main/tokenizer_config.json V3.1 基礎開源權重： https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base V3.1 開源權重： https://huggingface.co/deepseek-ai/DeepSeek-V3.1 價格變動新定價開始及非高峰折扣結束時間為 2025 年 9 月 5 日 16:00（UTC 時間）在此之前，API 遵循當前定價 ...

閱讀完整內容

Multiverse Computing 推出微型高性能 AI 模型

據公司新聞稿稱，Multiverse Computing 表示已經解決了長期困擾人工智慧的一個問題：在不損失效能的情況下縮小模型。這家總部位於西班牙的公司週四發布了名為 "Model Zoo" 的產品，這是一系列 "奈米模型"，據稱這些模型可以在中等硬體上本地運行，同時性能可匹敵甚至超越更大型的系統。此次發表的產品包括兩款新產品——ChickenBrain 和 SuperFly，旨在證明在人工智慧領域，規模越大並不一定越好。 ChickenBrain 是 Meta 的 Llama 3.1 大型語言模型的精簡版，Multiverse 表示，該模型比通常所需的計算資源小 3700 倍。儘管如此，該模型在 MMLU Pro、MATH500、GSM8K 和 GPQA Diamond 等行業基準測試中仍優於 Llama 3.1 8B。該公司在 MacBook Pro 和低成本 Raspberry Pi 等日常設備上對其進行了測試，表明它無需專門的雲端基礎設施即可運行。 SuperFly 較小，基於開源的 SmolLM2 135 模型，僅有 9,400 萬個參數。 Multiverse 表示，它足夠小，可以容納兩隻蒼蠅的神經容量，比雞腦小 15000 倍。該模型旨在實現無需互聯網連接即可運行的對話式 AI，因此非常適合嵌入到消費產品和車輛中。該公司指出，SuperFly 可在智慧家電等領域實現直接應用，無需將資料傳送到雲端即可實現語音控制。這將使洗衣機或冰箱即使在離線狀態下也能回應簡單的語言指令。在汽車領域，它可以為車載助理提供動力，使其在沒有蜂窩信號覆蓋的區域也能繼續運行，處理導航、氣候和音頻任務。 https://theaiinsider.tech/2025/08/15/multiverse-computing-reports-it-shrinks-ai-models-without-sacrificing-power/ Picture Source: Multiverse Computing

閱讀完整內容

Kopy AI Blog

搜尋此網誌