谷歌1月19日表示,它已經(jīng)改進(jìn)了其搜索引擎理解同義詞的方式,這是該公司讓其搜索服務(wù)看起來更像人類或人工智能的計(jì)算機(jī)行業(yè)的重要一步。用于解析的同義詞是Hakia、Yebol和微軟的Powerset(現(xiàn)在為Bing提供動(dòng)力)等搜索引擎初創(chuàng)公司在語義搜索的旗幟下所做的工作。這個(gè)想法是對搜索引擎進(jìn)行微調(diào),以區(qū)分含義相似的單詞。
谷歌搜索質(zhì)量工程師已經(jīng)研究了五年多,這導(dǎo)致了該公司的“同義詞系統(tǒng)”,甚至折磨“分析同義詞的影響和質(zhì)量?!?月19日,谷歌軟件工程師史蒂芬貝克的博文《我們的系統(tǒng)分析PB級Web文檔和歷史搜索數(shù)據(jù)》,以此來理解“不同語境下的詞義”。
貝克說,該公司發(fā)現(xiàn)“同義詞影響了70%的用戶在谷歌支持的100多種語言中的搜索”。
他說:“讓計(jì)算機(jī)理解語言仍然是人工智能中最困難的問題之一?!薄八阉饕娴哪繕?biāo)是為您的搜索返回最佳結(jié)果,而理解語言對于返回最佳結(jié)果非常重要。關(guān)鍵部分是我們的同義詞理解系統(tǒng)?!?
貝克說,人工智能挑戰(zhàn)的一個(gè)很好的例子是幫助谷歌的搜索引擎區(qū)分“圖片”和“照片”這兩個(gè)詞,這兩個(gè)詞通常是一回事。
貝克說:“如果用戶搜索“咖啡做的照片”,看看如何使用咖啡粉作為開發(fā)者來開發(fā)照片,谷歌必須明白,即使頁面顯示的是“照片”而不是“照片”,它仍然與搜索相關(guān)。請看這里的例子。
谷歌現(xiàn)在在其搜索結(jié)果摘要中以粗體字母顯示搜索同義詞,以幫助搜索用戶理解為什么顯示結(jié)果,即使結(jié)果不包含原始搜索單詞。例如,對于“用咖啡打印的照片”搜索,第一個(gè)結(jié)果標(biāo)題中的“照片”一詞以粗體顯示。
這是一個(gè)簡單的例子。谷歌還指出,涉及術(shù)語的查詢可能有更復(fù)雜的同義詞,如“通用汽車”。在這里看到谷歌對術(shù)語的分析。正如貝克所說:
“大多數(shù)人都知道主要意思:通用汽車。對于【通用汽車】的搜索,可以看到谷歌在搜索結(jié)果中加粗了“通用汽車”一詞。這說明對于這個(gè)搜索,我們認(rèn)為“通用汽車”和“通用汽車”的意思是一樣的。通用可以在【通用大學(xué)】代表喬治梅森,在【通用熒幕星球大戰(zhàn)】代表游戲經(jīng)理,在【通用學(xué)院】代表Gangadhar Meher,【nba通用】代表總經(jīng)理,甚至是【海軍將軍】的炮手隊(duì)友?!?
谷歌處理同義詞有多準(zhǔn)確?貝克說:“每50個(gè)使用同義詞顯著改善搜索結(jié)果的查詢中,[谷歌]只有一個(gè)真正糟糕的同義詞?!?
同時(shí),偶然發(fā)現(xiàn)不良同義詞的用戶應(yīng)該知道幾件事。一是同義詞背后的AI不夠完善;其次,谷歌不會手動(dòng)修復(fù)錯(cuò)誤的同義詞,因?yàn)樗鼉A向于迭代改進(jìn)搜索算法。
貝克邀請用戶在網(wǎng)絡(luò)搜索幫助中心論壇上發(fā)布問題,或者通過推特將問題發(fā)送給#googlesyns。用戶還可以通過在特定術(shù)語前添加“”或?qū)⑦@些單詞放在引號中來關(guān)閉它們的同義詞。
谷歌搜索質(zhì)量工程師之一馬特卡茨(Matt Cutts)為貝克的帖子歡呼,并呼吁谷歌為其搜索質(zhì)量工作提供更多透明度。他還放棄了挑戰(zhàn)兵士的競爭者,如冰,并指出:
“事實(shí)是,谷歌比大多數(shù)人意識到的要復(fù)雜得多。我想說的是,谷歌在“語義”方面做得更多,比幾乎任何其他搜索引擎都更了解文檔和查詢。”