跳到主要內容

發表文章

DeepSeek-V3.1 發布,邁向 AI Agent

DeepSeek-V3.1 在 DeepSeek-V3.1-Base 的基礎上進行後訓練,後者基於原始 V3 基礎檢查點,通過兩階段長上下文擴展方法構建,遵循原始 DeepSeek-V3 報告中概述的方法。 DeepSeek 透過收集更多長文件並大幅擴展兩個訓練階段來擴展資料集。32K 擴展階段的標記數量增加了 10 倍,達到 6,300 億個標記,而 128K 擴展階段的標記數量增加了 3.3 倍,達到 2,090 億個標記。此外,DeepSeek-V3.1 使用 UE8M0 FP8 規模資料格式進行訓練,以確保與微尺度資料格式相容。 DeepSeek-V3.1 是一個同時支持思考模式和非思考模式的混合模型。相較於上一版本,本次升級帶來了多個方面的改進: 混合推理:思考與非思考-一個模型,兩種模式 更快的思考:DeepSeek-V3.1-Think 與 DeepSeek-R1-0528 相比,可以在更短的時間內找到答案 更強大的代理商技能:後製訓練可提高工具使用率和多步驟代理任務 DeepSeek-V3.1 模型提升了工具使用、程式碼生成和推理效率,在高難度基準測試中實現了與 DeepSeek-R1 相當的效能,同時響應速度更快。它支援結構化工具呼叫、代碼代理和搜尋代理,適用於研究、編碼和代理工作流程。 工具和代理程式升級 在 SWE / Terminal-Bench 上獲得更好的結果 針對複雜搜尋任務的更強大的多步驟推理 思考效率大幅提升 模型更新 V3.1 基礎:在 V3 基礎上繼續對 840B 個 token 進行預訓練,以進行長上下文擴展 Tokenizer 和聊天範本已更新 - 新的 tokenizer 設定: https://huggingface.co/deepseek-ai/DeepSeek- V3.1/blob/main/tokenizer_config.json V3.1 基礎開源權重: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base V3.1 開源權重: https://huggingface.co/deepseek-ai/DeepSeek-V3.1 價格變動 新定價開始及非高峰折扣結束時間為 2025 年 9 月 5 日 16:00(UTC 時間) 在此之前,API 遵循當前定價 ...

Multiverse Computing 推出微型高性能 AI 模型

據公司新聞稿稱,Multiverse Computing 表示已經解決了長期困擾人工智慧的一個問題:在不損失效能的情況下縮小模型。 這家總部位於西班牙的公司週四發布了名為 "Model Zoo" 的產品,這是一系列 "奈米模型",據稱這些模型可以在中等硬體上本地運行,同時性能可匹敵甚至超越更大型的系統。 此次發表的產品包括兩款新產品——ChickenBrain 和 SuperFly,旨在證明在人工智慧領域,規模越大並不一定越好。 ChickenBrain 是 Meta 的 Llama 3.1 大型語言模型的精簡版,Multiverse 表示,該模型比通常所需的計算資源小 3700 倍。儘管如此,該模型在 MMLU Pro、MATH500、GSM8K 和 GPQA Diamond 等行業基準測試中仍優於 Llama 3.1 8B。 該公司在 MacBook Pro 和低成本 Raspberry Pi 等日常設備上對其進行了測試,表明它無需專門的雲端基礎設施即可運行。 SuperFly 較小,基於開源的 SmolLM2 135 模型,僅有 9,400 萬個參數。 Multiverse 表示,它足夠小,可以容納兩隻蒼蠅的神經容量,比雞腦小 15000 倍。該模型旨在實現無需互聯網連接即可運行的對話式 AI,因此非常適合嵌入到消費產品和車輛中。 該公司指出,SuperFly 可在智慧家電等領域實現直接應用,無需將資料傳送到雲端即可實現語音控制。這將使洗衣機或冰箱即使在離線狀態下也能回應簡單的語言指令。在汽車領域,它可以為車載助理提供動力,使其在沒有蜂窩信號覆蓋的區域也能繼續運行,處理導航、氣候和音頻任務。 https://theaiinsider.tech/2025/08/15/multiverse-computing-reports-it-shrinks-ai-models-without-sacrificing-power/ Picture Source: Multiverse Computing

谷歌計畫投資 90 億美元在俄克拉荷馬州建造雲端運算和 AI 基礎設施

Google 將在未來兩年內向俄克拉荷馬州額外投資 90 億美元,用於建造雲端運算和 AI 基礎設施。這筆投資將用於支持在 Stillwater 建設新的資料中心園區、擴大在普賴爾 (Pryor) 的現有設施,以及擴展教育和勞動力發展項目。 作為對美國教育和競爭力 10 億美元承諾的一部分,俄克拉荷馬大學和俄克拉荷馬州立大學加入了上週啟動的谷歌 AI 教育加速器項目的首批項目,該項目為俄克拉荷馬大學和牛仔大學免費提供谷歌職業證書和 AI 培訓課程。 谷歌還將提供資金支持與電氣培訓聯盟合作的創新項目,旨在將俄克拉荷馬州的電氣勞動力儲備增加 135%,幫助培養建設新能源基礎設施所需的勞動力。 這正是美國創新的非凡時刻。這些投資將為俄克拉荷馬州的學生提供關鍵的人工智慧和就業技能,並打造人才梯隊,不僅助力俄克拉荷馬州的未來,也協助美國在人工智慧領域的領導地位。 https://blog.google/inside-google/company-announcements/google-american-innovation-oklahoma/ Picture Source: Google

Xiaomi 發布聲音理解大模型 MiDashengLM-7B!

Xiaomi (小米) 正式發表並全面開放 MiDashengLM-7B 多模態大模型程式碼和參數,旨在為其電動車和智慧家居設備提供 AI 驅動,這款專注於音訊理解的 AI 模型在性能和效率上都取得了顯著突破。 一流的性能 在多個關鍵音訊理解任務上表現優於 Qwen2.5-Omni-7B、Kimi-Audio-Instruct-7B 。 高效率 與 Qwen2.5-Omni-7B 相比,在同等批量大小下,吞吐量加快了3.2 倍。 透過進一步增加批次大小,吞吐量提升了 20 倍。我們在 80GB GPU 上測試了大量大小高達 512 的30 秒音訊輸入。基準測試僅支援批次大小為 8。 與 Qwen2.5-Omni-7B 相比,第一個令牌時間 (TTFT) 加速高達4 倍。 基於標題的對齊 使用通用音訊字幕(而不是 ASR 成績單)進行訓練,以實現整體音訊理解。 完全透明 公共源訓練資料和可重複的管道。 Apache License 2.0 適用於研究和商業用途。 MiDashengLM-7B 模型以現有的語音技術為基礎,並採用了阿里巴巴的開放程式碼 Qwen2.5-Omni-7B 作為解碼器訓練的初始化模型。 https://kopyai.com/zh-tw/latest/view/type.news/0/45 Picture Source: unsplash.com

Google 推出虛擬衛星 AI 模型 - AlphaEarth Foundations

Google DeepMind 團隊推出虛擬衛星 AI 模型 - AlphaEarth Foundations,這是一個整合了數 PB 的地球觀測數據,產生統一的數據,徹底改變了全球地圖繪製和監測模式。 衛星每天都會捕捉資訊豐富的影像和測量數據,為科學家和專家提供近乎即時的地球視圖。雖然這些數據影響深遠,但其複雜性、多模態性和高刷新率也帶來了新的挑戰:如何連接不同的數據集並有效地利用它們。 AlphaEarth Foundations 是一個功能類似虛擬衛星的人工智慧 (AI) 模型。它透過將海量地球觀測資料整合成統一的數位表示(或稱為「嵌入」),使電腦系統能夠輕鬆處理,從而準確且有效率地描述地球的整個陸地和沿海水域。這使得該模型能夠為科學家提供更完整、更一致的地球演化圖景,幫助他們在糧食安全、森林砍伐、城市擴張和水資源等關鍵問題上做出更明智的決策。 為了加速研究並解鎖用例,Google 將 AlphaEarth 基金會的年度嵌入資料集作為 Google Earth Engine 中的衛星嵌入資料集發布。在過去的一年裡,Google 與 50 多個組織合作,在其實際應用中測試了該資料集。 Google 的合作夥伴已經看到了顯著的效益,他們利用這些數據來更好地對未測繪的生態系統進行分類,了解農業和環境變化,並大幅提高測繪工作的準確性和速度。 AlphaEarth Foundations 的運作方式 AlphaEarth Foundations 透過解決兩個主要挑戰:資料過載和資訊不一致,為了解我們的星球提供了強大的新視角。 首先,它整合了來自數十個不同公共來源的海量資訊——光學衛星圖像、雷達、3D雷射測繪、氣候模擬等等。它將所有這些資訊整合在一起,以10x10米的清晰網格分析全球陸地和沿海水域,從而能夠以驚人的精度追蹤隨時間推移的變化。 其次,它使這些數據變得切實可行。該系統的關鍵創新在於它能夠為每個方格創建高度緊湊的摘要。與我們測試過的其他人工智慧系統相比,這些摘要所需的儲存空間減少了16倍,並顯著降低了行星級分析的成本。 這項突破使科學家們能夠實現先前不可能實現的成就:按需創建詳細一致的世界地圖。無論是監測農作物健康狀況、追蹤森林砍伐,或是觀察新建築,他們都不再需要依賴單顆衛星。現在,他們擁有了一種全新的地理空間資料基礎。 https://kopyai.com/z...

Anthropic 部署 AI 代理程式來審核模型的安全性

  Anthropic已經建立了一支自主人工智慧代理大軍,其唯一使命是:審核像 Claude 這樣的強大模型以提高安全性。 隨著這些複雜系統的快速發展,確保其安全、杜絕隱憂已成為一項艱鉅的任務。 Anthropic 認為他們已經找到了解決方案,這是一個以毒攻毒的經典案例。 這個想法類似於數位免疫系統,其中人工智慧代理就像抗體一樣,在問題造成實際損害之前識別並消除它們。它使研究人員不必依賴過度勞累的人類團隊,與潛在的人工智慧問題進行無休止的「打地鼠」遊戲。 數字偵探小隊 該方法本質上是一個數位偵探小組;由三名專門的人工智慧安全人員組成,每個人員都有不同的角色。 首先登場的是調查員特工,團隊中頭髮花白的偵探。它的任務是深入調查,找出問題的根源。它配備了一套工具包,可以審問嫌疑模型,在大量資料中篩選線索,甚至可以透過窺探模型的神經網路來了解其思維方式,從而進行某種數位取證。 然後是評估代理。你給這個代理人一個特定的已知問題——例如,一個有點過於急於取悅的模型——它會設計並運行一系列測試來衡量問題的嚴重程度。這一切都是為了產生證明案例所需的冷酷無情的數據。 團隊的最後一位成員是廣度優先紅隊特工,臥底特工。這位特工的任務是與模型進行數千次不同的對話,試圖誘使其暴露任何令人擔憂的行為,即使是研究人員尚未想到的行為。最可疑的互動隨後會傳遞到上級人工審核,確保專家不會浪費時間鑽牛角尖。 Anthropic 測試其 AI 安全代理程式的效能 為了檢驗新招募的數位人員是否能勝任這項工作,Anthropic 的研究人員對他們進行了一系列「審計遊戲」。 在一項測試中,他們創建了一個帶有秘密目的的模型:成為一個諂媚者。它被秘密訓練,根據一項虛構的學術研究來奉承其內部的獎勵系統,而這恰恰是其程式設計中隱藏的缺陷。 當派出一名調查員特工時,它表現得非常吃力,只有13%的機率找到隱藏目標。事實證明,這名特工有一個非常人性的缺陷:它容易執著於第一個想法,而忽略了探索其他線索。 但這正是該系統的精妙之處。當研究人員部署一位「超級特工」匯總十位獨立調查員的調查結果時,成功率飆升至42%。這證明了團隊合作才能成就夢想,即使對人工智慧來說也是如此,它能讓團隊克服可能阻礙調查的個人盲點。 其他特工也都出色地通過了測試。評估特工成功設計了測試,能夠以 88% 的準確率發現異常模型,而紅隊特工則成功發現了...

Mistral AI 發布 Devstral 系列

Mistral AI 和 All Hands AI 合作發布 Devstral Medium 和 Devstral Small 升級版本,全新 Devstral Small 1.1 採用 Apache 2.0 授權發布,是程式碼代理開放模型中最先進的,Devstral Medium 可透過 Mistral AI 的 API 取得,並在性價比和效能上相比 Gemini 2.5 Pro 和 GPT 4.1 有著不錯的成效。 Devstral Small 1.1 與 Devstral Small 的上一版本一樣,我們根據 Apache 2.0 許可證發布了 Devstral Small 1.1。雖然架構保持不變,參數數量僅 24B,但 Devstral Small 1.1 與其前身相比有了顯著的改進: 增強效能 Devstral Small 1.1 在 SWE-Bench Verified 上獲得了 53.6% 的分數,並為沒有測試時間擴展的開放模型設定了新的最先進水平。 多功能性和通用性 Devstral Small 1.1 與 OpenHands 搭配使用時表現出色,並且能夠更好地泛化到不同的提示符和編碼環境。 同時支援 Mistral 函數呼叫和 XML 格式,進一步增強了其多功能性,使其能夠適用於各種應用程式和代理框架。 Devstral Medium Devstral Medium 繼承了 Devstral Small 的優勢,並將性能提升至更高水平,在 SWE-Bench Verified 測試中獲得了 61.6% 的得分。 Devstral Medium 可透過 Mistral AI 的公共 API 獲取,其卓越的性能和極具競爭力的價格使其成為尋求高品質、高性價比模型的企業和開發者的理想之選。 對於偏好本地解決方案的用戶,Devstral Medium 可以直接部署在私人基礎架構上,從而增強資料隱私和控制力。我們還支援 Devstral Medium 的自訂微調,讓企業可以根據特定用例自訂模型,並根據其特定需求實現最佳效能。 可用性 devstral-small-2507 的價格與 Mistral Small 3.1 相同:0.1 美元/M 輸入 Tokens 和 0.3 美元/M 輸出 Tokens。 devstral-medium-2507 的價格與 M...