- Microsoft giới thiệu ba mô hình nền tảng AI nội bộ dành cho việc phiên âm, tạo giọng nói và tạo hình ảnh nhằm giảm sự phụ thuộc vào OpenAI.
- MAI-Transcribe-1 hỗ trợ 25 ngôn ngữ và hoạt động nhanh hơn khoảng 2.5 lần so với dịch vụ phiên âm nhanh Azure hiện tại của Microsoft.
- MAI-Voice-1 có thể tạo ra 60 giây âm thanh tùy chỉnh chỉ trong khoảng một giây, trong khi MAI-Image-2 hướng đến việc tạo ra hình ảnh và video tiên tiến.
- Các mô hình này tích hợp vào Microsoft Foundry, MAI Playground, Teams và Azure, với mức giá cạnh tranh và lộ trình hướng tới các mô hình tiên tiến quy mô lớn vào năm 2027.
Microsoft đang tiến một bước rõ ràng hướng tới... quyền tự chủ lớn hơn trong trí tuệ nhân tạo Bằng cách giới thiệu ba mô hình nền tảng riêng của mình, tập trung vào phiên âm, tạo giọng nói và tạo hình ảnh. Động thái này cho thấy công ty muốn có một hệ thống AI đa phương thức sâu rộng hơn mà họ hoàn toàn kiểm soát, ngay cả khi vẫn duy trì liên minh thương mại chặt chẽ với OpenAI.
Các hệ thống mới này, được phát triển theo Siêu trí tuệ AI/MAI của Microsoft các nhóm được thiết kế để kết nối trực tiếp vào các sản phẩm như Teams và Azure cũng như tích hợp vào các nền tảng thử nghiệm nội bộ. Trên thực tế, Microsoft đang đặt nền móng cho một chiến lược dài hạn, trong đó... Các mô hình của chính nó bao phủ một phần ngày càng tăng trong khối lượng công việc hàng ngày., dành riêng các mô hình bên ngoài như của OpenAI cho những trường hợp chúng mang lại giá trị rõ ràng và khác biệt.
Ba mô hình nền tảng do Microsoft xây dựng dành cho phiên âm, giọng nói và hình ảnh.
Việc ra mắt sản phẩm xoay quanh ba mô hình cốt lõi: MAI-Transcribe-1 để chuyển lời nói thành văn bản, MAI-Giọng nói-1 cho chuyển văn bản thành giọng nói và MAI-Hình ảnh-2 để tạo ra hình ảnh trực quan. Cùng nhau, chúng tạo thành lớp đầu tiên, rất dễ thấy của một hệ thống nội bộ. ngăn xếp AI đa phương thức Có khả năng xử lý văn bản, âm thanh và hình ảnh trong hệ sinh thái của Microsoft.
Thay vì chỉ dựa vào các mẫu máy tính lớn, đa năng, Microsoft đang đặt cược vào... các hệ thống tập trung vào nhiệm vụ, rẻ hơn và nhanh hơn Đối với các trường hợp sử dụng phổ biến trong doanh nghiệp. Cách tiếp cận này đặc biệt phù hợp khi số lượng người dùng Copilot và các tính năng được hỗ trợ bởi AI trong Office, Teams và Azure tiếp tục tăng lên, trong khi chi phí sẽ tăng gần như tuyến tính với mức sử dụng API.
Mô hình nền tảng Các hệ thống này được huấn luyện trên các tập dữ liệu lớn và đa dạng để sau đó có thể được điều chỉnh cho nhiều tình huống khác nhau. Ở đây, điều đó có nghĩa là chúng hỗ trợ mọi thứ từ phiên âm cuộc gọi và tóm tắt cuộc họp đến giọng nói tổng hợp, công cụ hỗ trợ tiếp cận và quy trình tạo nội dung tự động.
MAI-Transcribe-1: Chuyển đổi giọng nói thành văn bản nhanh hơn, đa ngôn ngữ, hỗ trợ 25 ngôn ngữ.
MAI-Transcribe-1 là sản phẩm mới của Microsoft. công cụ chuyển giọng nói thành văn bản và là một trong những phần trọng tâm của quá trình triển khai này. Mô hình hỗ trợ phiên âm trong 25 ngôn ngữ khác nhau và đã được đánh giá nội bộ ở mức xấp xỉ Nhanh hơn 2.5 lần so với dịch vụ phiên âm Azure Fast hiện có của công ty., vốn là một điểm tham chiếu trong danh mục đầu tư hiện tại của nó.
Việc cải thiện hiệu năng này rất quan trọng vì Khối lượng công việc phiên âm rất nhạy cảm với độ trễ.Đặc biệt hữu ích trong các tình huống thực tế như phụ đề trực tiếp, hỗ trợ khách hàng hoặc các cuộc họp kết hợp. Phạm vi ngôn ngữ rộng hơn cũng phù hợp với phạm vi hoạt động toàn cầu của Microsoft, giúp các khách hàng đa quốc gia dễ dàng chuẩn hóa việc sử dụng một nhà cung cấp duy nhất thay vì phải sử dụng nhiều công cụ khu vực khác nhau.
Về mặt sản phẩm, Microsoft dự định tích hợp trực tiếp MAI-Transcribe-1 vào hệ thống. Nhóm của Microsoft để xử lý bản ghi cuộc họp và phụ đề trực tiếp. Theo thời gian, dự kiến công cụ tương tự sẽ xuất hiện bên trong các công cụ năng suất khác, để Người dùng nhận thấy tốc độ nhanh hơn và chi phí thấp hơn mà không nhất thiết phải nhận ra sự thay đổi về thương hiệu..
Giá cả được định vị rất cạnh tranh: MAI-Transcribe-1 có giá khởi điểm khoảng... 0.36 đô la mỗi giờ xử lý âm thanhĐây là một con số nhằm mục đích cạnh tranh với các gói dịch vụ tương tự từ Google và OpenAI, trong khi vẫn hoạt động trên cơ sở hạ tầng đám mây của chính Microsoft.
MAI-Voice-1: Chuyển văn bản thành giọng nói cực nhanh với giọng nói tùy chỉnh
Về khía cạnh tạo âm thanh, MAI-Giọng nói-1 là mô hình mới của Microsoft dành cho chuyển văn bản thành giọng nóiTheo công ty, họ có thể sản xuất khoảng... 60 giây âm thanh được xử lý trong khoảng một giây.Đây là một bước tiến đáng kể đối với những trường hợp sử dụng mà khả năng phản hồi là yếu tố then chốt.
Ngoài tốc độ vượt trội, một lời hứa quan trọng khác là hỗ trợ cho... giọng nói tùy chỉnh, phù hợp với thương hiệuCác tổ chức sẽ có thể xác định giọng nói phù hợp với bản sắc hoặc các trường hợp sử dụng cụ thể của họ, từ đường dây hỗ trợ và trợ lý hội thoại đến tài liệu đào tạo, podcast và các tính năng hỗ trợ tiếp cận. Mức độ kiểm soát này ngày càng quan trọng khi giọng nói tổng hợp trở nên phổ biến hơn và người nghe ngày càng khắt khe hơn về giọng điệu và độ rõ ràng.
Microsoft đang nhắm thẳng vào MAI-Voice-1 các nhà phát triển và doanh nghiệp xây dựng các sản phẩm sử dụng nhiều giọng nói.: trung tâm cuộc gọi, trợ lý trong ứng dụng, công cụ học ngôn ngữ, nền tảng truyền thông hoặc bất kỳ dịch vụ nào cần tường thuật có khả năng mở rộng. Giá khởi điểm khoảng 22 đô la cho một triệu ký tựMô hình này được thiết kế để khả thi về mặt tài chính ở cả quy mô nhỏ và quy mô rất lớn.
Về mặt cơ sở hạ tầng, MAI-Voice-1 được cung cấp thông qua API AzureMicrosoft Foundry và MAI PlaygroundĐiều này cho phép các nhóm thử nghiệm giọng nói nhanh chóng và sau đó chuyển sang môi trường sản xuất mà không cần thay đổi môi trường. Ý tưởng là để tối ưu hóa toàn bộ quy trình từ thử nghiệm đến triển khai trong hệ sinh thái của Microsoft.
MAI-Image-2: tích hợp khả năng tạo ảnh và video vào hệ sinh thái của Microsoft.
Mô hình thứ ba, MAI-Hình ảnh-2, tập trung vào Tạo hình ảnh (và trong một số mô tả, cả video) từ các lời nhắc bằng văn bản.Mặc dù công ty chưa tiết lộ mọi chi tiết kỹ thuật, nhưng họ đang định vị mô hình này như một công cụ trực quan bổ trợ cho hệ thống văn bản và âm thanh của mình, nhằm tự động hóa việc tạo ra các tài sản tiếp thị, hình ảnh sản phẩm, kịch bản và các phương tiện truyền thông khác.
Điều thú vị là, MAI-Image-2 lần đầu tiên xuất hiện một cách lặng lẽ hơn ở Sân chơi MAIMicrosoft đã giới thiệu môi trường thử nghiệm dành cho các mô hình lớn vào giữa tháng 3. Thông báo hiện tại chính thức hóa vai trò của nó như một phần của hệ thống rộng lớn hơn. Xưởng đúc và Azure một hệ sinh thái, nơi các doanh nghiệp có thể truy cập nó như một thành phần tiêu chuẩn chứ không chỉ là một bản demo nghiên cứu thuần túy.
Cơ chế định giá cũng được thiết kế để cạnh tranh: công ty đưa ra mức giá khởi điểm khoảng 5 đô la cho mỗi triệu mã thông báo đầu vào cho văn bản Và xung quanh 33 đô la cho mỗi triệu mã thông báo đầu ra cho hình ảnh được tạo raNhững con số này được đánh giá là tương đương hoặc thấp hơn so với các nhà cung cấp đối thủ ở cùng phân khúc, đồng thời được hưởng lợi từ bộ giải pháp bảo mật và tuân thủ tiêu chuẩn doanh nghiệp của Microsoft.
Các trường hợp sử dụng bao gồm từ quy trình sáng tạo tự động và từ hình ảnh tiếp thị cá nhân hóa đến tạo mẫu nhanh cho thiết kế sản phẩm. Đối với nhiều khách hàng đã sử dụng Azure làm nền tảng tiêu chuẩn, điểm bán hàng chính là họ có thể thử nghiệm việc tạo hình ảnh mà không cần thuê thêm nhà cung cấp bên ngoài.
Tích hợp giữa Azure, Foundry, MAI Playground và Microsoft 365.
Một khía cạnh nổi bật của sự ra mắt này là cách các mẫu xe mới được tích hợp chặt chẽ vào tổng thể. các nền tảng đám mây và năng suất hiện có của MicrosoftCả ba hệ thống – MAI-Transcribe-1, MAI-Voice-1 và MAI-Image-2 – đều đang được triển khai thông qua... Microsoft Foundry, môi trường của công ty để truy cập và mở rộng các mô hình nền tảng.
Các nhà phát triển có thể bắt đầu với Sân chơi MAITrong đó, các mô hình tương tự được hiển thị trong một giao diện mang tính thử nghiệm hơn. Thiết lập này nhằm mục đích giảm bớt rào cản cho các nhóm muốn thử nghiệm các khả năng như phiên âm, giọng nói tổng hợp hoặc tạo hình ảnh mà không cần phải tích hợp hoàn toàn ngay lập tức.
Về mặt sản phẩm, Microsoft đã chỉ ra Nhóm của Microsoft Là một trong những người hưởng lợi sớm nhất, MAI-Transcribe-1 được thiết kế để hỗ trợ việc ghi chép và phụ đề cuộc họp, trong khi MAI-Voice-1 và MAI-Image-2 dự kiến sẽ xuất hiện theo thời gian trong nhiều lĩnh vực khác nhau. Trải nghiệm Copilot và Microsoft 365Ngay cả khi người dùng cuối không nhìn thấy rõ nhãn hiệu của sản phẩm.
Đối với các công ty, lời hứa này là một một chồng đơn nhất, mạch lạc Nơi mà công nghệ phiên âm, giọng nói và hình ảnh cùng tồn tại với các mô hình ngôn ngữ, dịch vụ dữ liệu và phân tích trong Azure. Điều này có thể đơn giản hóa việc tuân thủ, đánh giá bảo mật và quản lý nhà cung cấp so với việc kết nối nhiều nhà cung cấp AI bên ngoài khác nhau.
Chiến lược định giá và cạnh tranh với OpenAI và Google
Bên cạnh các thông số kỹ thuật, Microsoft đang đặc biệt chú trọng đến... khả năng cạnh tranh về giáCông ty công khai định vị những mẫu xe này như những lựa chọn thay thế có thể sánh ngang hoặc thậm chí vượt trội hơn so với các sản phẩm tương tự từ các đối thủ. OpenAI và GoogleĐặc biệt là đối với việc sử dụng liên tục với khối lượng lớn.
Mức giá niêm yết – $0.36 mỗi giờ âm thanh đối với MAI-Transcribe-1, 22 USD mỗi triệu ký tự cho MAI-Voice-1 và 5 đô la / 33 đô la cho mỗi triệu token Cấu trúc cho MAI-Image-2 – không chỉ là những chi tiết kỹ thuật. Chúng là một phần của thông điệp rộng hơn mà Microsoft muốn được nhìn nhận là một Nhà cung cấp AI tạo sinh hiệu quả về chi phí, trọn gói chứ không chỉ đơn thuần là nhà phân phối lại các mẫu sản phẩm của đối tác.
Trong một thị trường nơi ngày càng nhiều tổ chức đang tích hợp AI vào hoạt động hàng ngày, Chi phí cho mỗi yêu cầu có thể nhanh chóng trở thành một biến số chiến lược.Bằng cách sở hữu các mô hình riêng, Microsoft có thể tinh chỉnh sự cân bằng giữa chi phí tính toán, độ phức tạp của mô hình và giá cả cho người dùng thay vì phải trả khoản phí cao cho các nhà cung cấp bên ngoài.
Ngoài ra còn có hiệu ứng báo hiệu: bằng cách nêu bật các tiêu chuẩn và bảng giá của riêng mình, Microsoft đang ngầm nói với khách hàng rằng họ không cần phải mặc định sử dụng các mô hình của bên thứ ba cho các khối lượng công việc cốt lõi như phiên âm, nhận dạng giọng nói và xử lý hình ảnh nếu họ đã cam kết sử dụng Azure.
Mustafa Suleyman và tầm nhìn AI “lấy con người làm trung tâm”
Ba mẫu xe mới này đến từ các nhóm được tập hợp dưới Siêu trí tuệ AI/MAI của Microsoft, do mustafa sulemanÔng Suleyman, người hiện đang đứng đầu bộ phận Trí tuệ Nhân tạo của Microsoft, được biết đến với các vai trò trước đây trong ngành công nghiệp trí tuệ nhân tạo, đã công khai phác thảo một tầm nhìn mà ông mô tả là... “Trí tuệ nhân tạo nhân văn” hoặc trí tuệ nhân tạo lấy con người làm trung tâm.
Trong các thông cáo báo chí của Microsoft về việc ra mắt sản phẩm, Suleyman nhấn mạnh rằng các mẫu máy này được thiết kế để Phản ánh cách mọi người thực sự giao tiếp, ưu tiên tính hữu dụng thực tiễn và sự an toànTheo lời ông, mục tiêu là tạo ra những hệ thống ít mang tính nghiên cứu trừu tượng hơn và trở thành những công cụ phù hợp hơn với quy trình làm việc hàng ngày ở nơi làm việc và ở nhà.
Ông cũng cho rằng bộ ba người mẫu hiện tại là đây chỉ là sự khởi đầu của một danh mục đầu tư rộng lớn hơn.Microsoft dự định triển khai thêm các mô hình nền tảng thông qua Foundry và trực tiếp trong các sản phẩm, dần dần mở rộng khả năng nội bộ của mình vượt ra ngoài lĩnh vực giọng nói và hình ảnh để bao gồm nhiều phương thức và các nhiệm vụ chuyên biệt hơn.
Lộ trình đó nhấn mạnh ý định của Microsoft là không chỉ được nhìn nhận như một nền tảng cho trí tuệ nhân tạo của người khác, mà còn là nhà xây dựng các mô hình tiên tiến của riêng mình, có thể hoạt động song song với các sản phẩm từ các đối tác lâu năm như OpenAI.
Điều chỉnh lại mối quan hệ với OpenAI và mục tiêu mô hình tiên tiến năm 2027.
Một trong những khía cạnh tế nhị nhất của chiến lược này là cách nó liên quan đến Quan hệ đối tác nổi bật của Microsoft với OpenAIHai công ty vẫn duy trì mối quan hệ chặt chẽ: Microsoft đã đầu tư hơn... 13 tỷ USD Tại OpenAI, họ lưu trữ các mô hình của mình trên Azure và tích hợp các hệ thống như GPT vào các sản phẩm như Copilot.
Tuy nhiên, các báo cáo gần đây chỉ ra rằng đàm phán lại mối quan hệ Điều đó giúp Microsoft có thêm không gian để tiến hành nghiên cứu AI và phát triển các dòng sản phẩm riêng của mình song song. Suleyman đã mô tả sự thay đổi này như một sự tiến hóa tự nhiên, chứ không phải là một sự đứt đoạn – giống như việc công ty tự thiết kế một số chip của mình trong khi vẫn mua từ các nhà cung cấp bên ngoài.
Theo Bloomberg và các nguồn tin khác, Microsoft đang hướng tới mục tiêu sở hữu dự kiến các mô hình quy mô lớn, tiên tiến của riêng mình sẽ đi vào hoạt động vào khoảng năm 2027.Các hệ thống mới được công bố nằm ở giai đoạn đầu của tham vọng đó: chúng chưa được định vị là các mô hình ngôn ngữ tiên tiến, đa năng, mà đúng hơn là... Các thành phần chuyên dụng giúp giảm sự phụ thuộc vào API của đối tác cho các công việc hàng ngày..
Trên thực tế, điều này có nghĩa là Microsoft có thể tiếp tục sử dụng các mô hình OpenAI như GPT-5.4 ở những nơi chúng phù hợp, đồng thời dần dần loại bỏ chúng. thay thế các mô hình của riêng nó Bất cứ khi nào tỷ lệ hiệu quả chi phí hoặc các cân nhắc chiến lược ưu tiên công nghệ nội bộ. Người dùng có thể chỉ đơn giản nhận thấy rằng các tính năng trở nên nhanh hơn hoặc rẻ hơn khi các chuyển đổi này diễn ra ngầm.
Đối với thị trường AI rộng lớn hơn, hướng đi kép này nhấn mạnh một xu hướng rõ ràng: các công ty công nghệ lớn đang tìm kiếm một sự cân bằng giữa hợp tác và tự chủSử dụng các liên minh để hành động nhanh chóng nhưng đồng thời xây dựng năng lực riêng để tránh bị phụ thuộc vào một nhà cung cấp duy nhất trong dài hạn.
Với ba mô hình này, Microsoft đang thực chất khẳng định vị thế của mình: họ muốn cạnh tranh ở nhiều cấp độ trong hệ sinh thái AI – từ cơ sở hạ tầng và công cụ đến chính các mô hình nền tảng – đồng thời vẫn dành chỗ cho các đối tác như OpenAI ở những lĩnh vực mà họ có thế mạnh riêng. Đối với khách hàng, điều đó có thể đồng nghĩa với nhiều lựa chọn hơn, giá cả cạnh tranh hơn và sự dịch chuyển dần sang AI mang thương hiệu Microsoft làm nền tảng cho các sản phẩm và dịch vụ quen thuộc.

