最近一個月,字節跳動發生了哪些新鮮事兒?
這次公司新聞和產品動態月度回顧,我們想先分享三個小故事,分別關于修復古籍的年輕人、暴雨里的尋人故事以及“一目十行”的翻譯技術。
我在抖音修文物
視頻里的紙團顏色暗黃,被放在塑料袋里,如同揉在一起的破布。修復師將紙團慢慢展開,按照正面排好順序,并從背面開始修復。修復完成后,紙頁被放在撤潮紙上,用木板壓平。紙團的真面目慢慢打開,這是清代道光年間的一件地契,距今已經200年。
視頻作者叫廉成春,是一位古籍修復師,出生于1988年。她從20歲開始研習古籍修復,曾在國家圖書館學習古籍鑒定與修復,后拜師古籍修復專家杜偉生。杜偉生古籍修復技藝代表性傳承人,參與過《永樂大典》、西夏文獻等珍貴古籍修復。
古籍修復是一項枯燥又有趣的冷門工藝,涉及十多道工序。真正完成一冊古籍的修復工作,往往需要一兩個月,每天重復著同樣的事。但每次看到破損的古籍逐漸恢復過去的模樣,廉成春都會覺得開心,自己的努力沒有白費。
這些年來,廉成春修復過各種各樣的古籍和物件,比如宋代佛經、清代地契與版畫以及民國時期的執照和作戰圖。她曾修復過一件北宋孤本文集,這件古籍經歷過火燒和受潮,受損嚴重,紙張粘在一起。修復好之后,每頁價格都在三百萬左右。
去年2月,廉成春開始在抖音上定期更新視頻,科普古籍修復知識,很快積累了將近8萬粉絲。原本小眾的古籍修復在抖音有了數十萬、甚至上千萬的播放量,越來越多的年輕人開始關注這項傳統工藝。同時,廉成春認識了更多同行,一起交流修復技藝,這讓她覺得不再孤單。
最近,廉成春加入了“尋找古籍守護人”項目。這是字節跳動公益聯合中國文物保護基金會、國家圖書館發起的一項活動,旨在激勵創作者創作相關內容,推動古籍活化,讓古籍文化被更多人看見。
暴雨中的尋人啟事
7月21日晚上12點,家在鄭州的張玲終于找到了失聯21小時的弟弟。
前一天中午,鄭州發生特大暴雨。下午4點,張玲和弟弟失去了聯系。當時,很多朋友在朋友圈轉發洪水視頻。張玲不停打電話,但弟弟的手機一直顯示關機。她和父母心急如焚,直接報了警,還是沒有消息。
21日,張玲看到抖音上線的暴雨緊急尋人功能,決定試試。抖音尋人的工作人員制作了十多秒的尋人視頻,附上了弟弟的照片和信息。5個小時后,張玲收到了抖音尋人的反饋,人找到了。當時已經是夜里12點,一位抖音網友提供了關鍵線索,弟弟所在小區停電,一直沒有信號。
很快,張玲聯系上了弟弟。這時候她才得知,昨天自己焦急尋找弟弟的時候,他正在兩米高的洪水里救人。馬路變成了一片汪洋,弟弟幫助幾位個子比較矮的女孩和一對母子安全渡河。張玲聽完多少有些后怕。朋友跟她提起過,有個小伙子想要救助被洪水卷進涵洞的女孩,結果失敗,兩人雙雙淹沒在洪流中。
因為這次經歷,張玲第一次知道弟弟的具體住址。姐弟倆都在鄭州打拼,但平時交流不多,有時還會為一些雞毛蒜皮爭吵。聯系上張玲后,弟弟還有些抱怨,他認為姐姐應該保持冷靜,而不是手忙腳亂,讓父母更加擔心。張玲覺得郁悶,“我千辛萬苦找他,他卻這樣反問我,我們隔著手機大吵了一架。不過想想,還能吵架,真好。”
像這樣的故事還有很多。7月20日至今,抖音、今日頭條陸續接收到來自河南各地近2萬條求助信息,經過篩選、核實后,累計發布315條尋人信息,幫助8名網友找到15位親人。
“一目十行”的翻譯技術
在近期舉辦的WMT2021國際機器翻譯大賽上,字節跳動火山翻譯團隊的并行生成模型GLAT獲得了「德語-英語」語向機器翻譯比賽自動評估第一名。
WMT是由國際計算語言學協會舉辦的世界頂級機器翻譯比賽,已經連續舉辦16年。在機器翻譯領域,傳統的“自回歸模型”技術占據著絕對的統治地位,被廣泛應用于神經網絡模型。這種技術按照從左向右的順序逐詞翻譯,每一個輸出的詞都依賴于之前的詞。當輸出文本較長或者模型比較復雜時,機器翻譯的速度很慢。
“自回歸模型”很接近大家平時的閱讀習慣,但這并非唯一的思路。有研究者們提出一種非自回歸的模型,充分利用并行計算資源來加速生成。這種模型由機器同步輸出所有的詞,可以將翻譯速度提高數十倍,可以說“一目十行”。此前,并行生成技術尚未成熟,仍然處于探索階段,雖然有過嘗試,但翻譯質量并不理想,實踐應用更是寥寥無幾。
在這次國際機器翻譯大賽中,火山翻譯團隊的并行生成模型GLAT從眾多自回歸翻譯系統中脫穎而出,在具備高效解碼速度的同時,實現了更高的翻譯質量。這是16年來首個奪得 WMT 冠軍的并行翻譯系統,在實踐應用層面展示了豐富的潛力,可以說代表了自然語言生成技術的變革方向。目前,“并行翻譯”技術已應用在火山引擎旗下產品火山翻譯中。
這些故事讓我們看到了傳統工藝的傳承,善意與愛心的傳遞,以及技術的創新。除了上述內容,最近一個月字節跳動還有其他一些動態,讓我們快速回顧一下。