
這是BAT下半年的其中一個“戰場”。
2014年底,亞馬遜在官網悄悄地發布了Echo,但估計就連亞馬遜自己也沒想到,這個看上去“簡潔得有點簡陋”的奇怪音箱,居然能夠在日后賣出800多萬臺,不僅直接給亞馬遜帶來將近10億美元營收,甚至在Kindle之后成為又一款消費者所認可的終端。
Echo之后所代表的技術趨勢并不“隱晦”:智能語音技術落地點,全新交互方式,全新服務接口這種概念的分析早就被寫了幾百遍。但另外一邊卻是赤裸裸的現實——一貫緊跟全球消費電子市場的中國,在智能語音的具體商業化這件事上卻“落后”了。
好在,“落后”并不意味著錯過,反之因為“落后”,讓整個行業積聚了非常強大的力量,隨時有可能爆發出來。換句話說,2017年很可能會成為中國智能音箱市場最難得的“黃金發展期”。
兩個星期,BAT全部進入戰場

雖然這早已不是BAT在同一個領域中爭高下,但在兩周內讓3家巨頭同時進入“戰場”,智能語音的魅力的確很大。第一個又動作的是騰訊,在兩周之前的騰訊云峰會上,騰訊云就發布了全新的智能語音產品“騰訊云小微”。
而小微主要包括了3個開放性的平臺:能夠通過SDK接入硬件的硬件開放平臺;包含騰訊各種自由內容、應用資源的Skill開放平臺;以及能夠讓機器不斷學習和決策的小微服務機器平臺。

有趣的是,在官方資料中,騰訊還提到了自己的一點優勢,小微的所有能力來自于微信AI團隊。后者之前實際上已經將語音識別、加入語義分析技術的語音輸入、語音轉文字、等功能添加到微信當中。
“BA”則顯得更為默契,將自己的智能音箱產品的發布都定在了7月5號,也就是昨天。

在昨天是上午的百度“Creat 2017”AI開發者大會中,更新的DuerOS成為了最重要的發布環節。百度在這次大會上也祭出了大手筆——聯合數家音箱生產、語音交互技術提供商,為其他第三方產品制造商、開發者提供軟硬件一體化解決方案。
百度同時還在開發者大會現場宣布了對KITT.AI的收購,后者在“熱詞檢測(喚醒)”、“智能語音對話”這兩項與智能語音息息相關的技術上有很不錯的積累。但同時百度并沒有打算“獨吞”這些先進技術,而是將其語音能力和自然語言能力融入平臺,向合作伙伴免費開放,官方將其稱之為“賦能開放”。

短暫的午休之后,阿里終于“最后一個”加入進來,畫風略微不同的他們發布了“天貓精靈 X1”智能音箱。值得稍微提一嘴的是,有業內人士向雷鋒網爆料:“阿里這款智能音箱實際是來自思必馳的方案?!钡布旧砘蛟S并不是“天貓精靈 X1”最為重要的特點,關鍵還是在于阿里已經在其之上實現了聲紋識別以及支付環節的打通。
這也符合業內對于阿里進軍智能音箱的一貫預期:阿里智能音箱的最大挑戰、同時最大的優勢是購物。依托電商建立龐大帝國的阿里不可能不做購物,但這項服務本身放在語音上面來進行有挑戰,像Echo Show那樣帶有顯示屏的智能音箱或許更適合這種任務,但那樣的產品同樣需要繼續等待。
對于BAT的新動向,Rokid智能音箱負責人文杰也接受了雷鋒網的采訪:“BAT進軍智能音箱這件事對于我們來說算不上威脅,倒不如說是一種機遇。我們很期待他們接下來在這方面的服務端口開放。”
對此,喜馬拉雅副總裁李海波也有著類似的觀點:“雖然我們有打造自己的音箱,但是我們也會將自己的服務開放出去,別的智能音箱產品也能夠調用我們的音頻內容資源。因為我們關心的只是單個用戶在喜馬拉雅中停留的時間?!?/p>
先期引爆的英文語音市場

早前,美國市場研究公司Statista曾做過相關的統計,2016年美國的智能家居市場銷售額為97億美元,而中國僅有5.2億美元。普及率的增長更是驚人,美國的數值為5.8%,而中國僅為0.1%。

但由于是大洋彼岸的關系,也有不少人曾經對亞馬遜Echo“夸張”的銷售數據提出過質疑,雷鋒網就此也詢問了國內某智能音箱生產商,他回答稱:“去年亞馬遜Echo智能音箱的銷售效果的確不錯,在國內它總的生產量剛超過800萬臺,其中初期的Echo和簡化版Echo Dot差不多對半。國內銷售量第一名可能只有它的1/100?!?/p>
參考目前Echo和Echo Dot分別定價179/49美元,光是這800萬臺設備就已經能夠給亞馬遜帶來10億美元的營收,這還不算在使用音響之后所帶來的服務訂購、網上購物等二次消費。

從原理上說,智能音箱的代表產品,亞馬遜Echo背后的Alexa,以及它的前輩Siri,實際上都屬于智能語音技術。其核心非常簡要——要讓機器在語音對話這一環節擁有近似于人的能力。
盡管語音對話是人類平日做得最多的動作之一,它的難度卻不可小覷。從語音到文字的轉換、機器語音的發聲、再到多句語音的上下文理解,這些環節在沒有人工智能技術之前遲遲未能取得進展。
載體則是另外一個因素,雖然擁有基礎對話能力的Siri早在6年前就登陸了手機。但智能手機的主要操作依然停留在觸摸和顯示之上,所以大家并不會經常使用這一功能,甚至只會在不小心長按Home鍵的時候才會想起這一功能。

相比之下,將語音交互能力獨立出來,并且只能通過語音交互的Echo。則“斷絕”了用戶返回到觸控操作的可能性的,這才讓人們終于開始正視智能語音交互本身。
另外一點關鍵是亞馬遜對于語音交互場景的深入理解——語音交互雖好,但是在公共場合比較吵的環境中并不適用,智能音箱就該成為小家電一般的存在,滲入人們的日常生活空間。為此,李志飛也向雷鋒網簡單也講述了出門問問曾在美國做過的相關調研:“我們曾采訪了大量亞馬遜Echo和Google Home的使用者,同時也對美國智能家居需求與中國用戶對智能家居的需求進行深度調研。在美國,由于智能家居生態比較完善,用戶對智能音箱可以便捷控制家居的需求尤其強烈。實際上,中國人也有著這樣的需求。”

至此,人們終于整體感受到智能語音技術的“不同”,或者說是在體驗層面達到了“讓用戶買單,并且不后悔”的程度。
問題來了,智能音箱在外國這么火,為什么國內卻遲遲發展不起來?
“落后”明顯的中國市場

雖然隔著太平洋,但是中國在3C電子產品消費市場上之前從未發生大的“脫節”,智能音箱卻是一個罕見的例子。一位國內智能音箱從業者向雷鋒網透了個底:“而國內智能音箱目前的產量和銷量還在千、萬之間浮動,賣得最好的還是京東的叮咚,但實際數量仍遠遠小于Echo。數量最多的還是很多小廠商生產的低劣的智能音箱產品,那種產品10句話中有2句話有反應就不錯了。”
那么究竟是什么原因導致了這樣的現象?打造智能音箱的技術基礎差異應該是最主要的原因。對此出門問問CEO李志飛對雷鋒網表示:“如果只是單單做一個演示(Demo)版的智能音箱是沒有門檻的,但如果做一款用戶體驗好,性價比高的智能音箱是存在很高門檻的?!?/p>
比如產品需要不停迭代完善,以確保穩定的網絡連接;比如一款精美的音箱需要反復磨合外觀設計;又比如語音交互需要良好的收聲效果,而揚聲器本身會發聲,在遠場喚醒智能音箱時,就需要消除揚聲器本身的聲音;甚至音量大時的震動也會影響收聲,所以音腔和麥克風之間的距離都需要考量。
喜馬拉雅副總裁李海波在雷鋒網的采訪中也表達了類似的看法:“我們之前在打造自己的智能音箱的時候也花了不少時間。為了能正常使用,硬件部分足足微調了40天,音箱如何才能理解人類指令這件事花的時間就更久了,大概用了400多天,這還是應用場景高度集中化的情況下?!?/p>
這也從另外一個方面映射出智能音箱市場所存在的“分裂發展”問題:看起來簡單的智能音箱想要真正實現日常語音交互,實際上全是技術難題。也正是這些難題讓中國智能語音市場發展遲緩,而其中影響最大的就是機器對于中文的理解,也就是我們俗稱的NLP。
為了說明中文的NLP在智能音箱上面有多難,李海波給雷鋒網舉了一個例子:“我們曾經統計過,一個簡單的‘下一曲’,用中文來表達就有60多種方式,而且這還是不考慮方言差異的前提下。”
這也成為了智能音箱一個實打實的屏障,同時也是很多人對于BAT能夠加入到這場戰斗中感到高興的原因——這3家手中都有著大量可供機器學習的數據,同時也有充足的人手和資源來支撐這個反復調試的過程。
另外一個層面來看,中國其實有很多人、公司已經在智能語音的探索上先行一步,但是往往僅限于一些碎片化的問題,就像百度這次收購的KITT.AI一樣。利用自己其他業務線相對雄厚的資金收入來整合社會能力,反過來再將這些能力打包給消費者。這也是BAT自己所熟悉和擅長的事情。
雷鋒網總結:人工智能“商業化ing”

人類歷史上曾經出現無數種技術、發明,究竟人們什么時候才會認真對待它們呢?答:只要它們能夠給人類帶來大幅度的利益。
這條法則對于人工智能技術同樣適用,正如馬云之前曾經公開表示的那樣:“AlphaGo贏了,So TM What?”這句話雖然聽起來偏激,但從對于人類實際影響這個角度出發,AlphaGo的確沒有留下足夠深的印記。
相反,看起來不起眼的智能音箱反倒有可能實現這個目標。
百度談開源、騰訊曬內容體系、阿里想打造新消費入口,新入場的BAT雖然在方向策略上有所分歧,但有一點是確定的,他們都不會錯過首先實現人工智能商業化的目標。最好的證明就是三家發布智能音箱產品的場合。:百度AI開發者大會、騰訊“云+未來”技術峰會、阿里AI Labs人工智能實驗室對外公布。
拋開BAT中誰能成為最終贏家這個目前仍無法確定的終極問題不談,3家大力下注人工智能的舉動卻是再清晰不過的。統治了中國的“互聯網”時代的BAT,已經充分意識到了人工智能將會帶來的趨勢和變革,才會如此“默契”地同時進入這個戰場。
短期來看,圍繞著智能語音和音樂、語音類內容服務仍是主要的路線。其后智能音箱的市場爭奪將圍繞這各家的差異化展開,屆時擁有更多用戶和場景資源的騰訊或許會擁有一定的優勢。而阿里的電商優勢仍需要面對如何轉化的問題。至于百度嘛,還得看相關開源項目的進展情況。
當然,這僅僅是個開始,人工智能的好戲還在后頭。