認知工具:從視覺抽象到資料視覺化
介紹
約書亞·泰南鮑姆 (Josh Tenenbaum) 非常榮幸地介紹了茱蒂·范 (Judy Fan),她是本次座談會的講者。茱蒂是認知科學領域中,他最欣賞的科學家之一。她絕對是年輕一代的領軍人物,無論以任何客觀標準衡量,她都非常傑出。茱蒂在史丹佛大學擔任助理教授已有數年,並且是我們領域中冉冉升起的一顆閃耀之星。她曾獲得多項獎項,包括 Glushko 論文獎和 NSF 職業獎。
儘管如此,這些獎項並非邀請她的主要原因。約書亞認為茱蒂是他所認識的最具創造力的研究人員之一,她的背景是神經科學,並且與許多從大腦記錄訊號並嘗試進行計算分析的人非常熟悉。她與丹·亞明斯 (Dan Yamins) 等同事合作研究視覺。她的大部分背景都與視覺心理物理學、視覺神經科學和計算神經科學有關。然而,她的研究方向已從基本的感知過程轉向使我們成為人類的認知方面,包括生物學和文化方面。
這意味著她研究了視覺和其他媒體中的藝術表達或創造性表達,她對敘事表達、教育、學習、教學以及我們如何透過符號、數據和解釋來理解世界非常感興趣。因此,她已轉向更複雜的認知過程,這些過程在生物學和文化上都非常獨特,並且在當今時代也越來越重要。她並沒有放棄嚴謹性,並且一直在努力解決如何以視覺神經科學和計算神經科學中的嚴謹性和精確度來研究這些重要且困難的問題。
認知工具
茱蒂·范首先表達了她對麻省理工學院(MIT)的社群和價值觀的欽佩。她將會分享一些關於認知工具的研究。那麼,什麼是認知工具?從我們熟悉的簡單事物開始,例如數字線。數字線並非自然存在,而是人類發明的。正如西班牙建築師安東尼·高第 (Antoni Gaudí) 所說,自然界中沒有直線或尖角,但這並沒有阻止我們創造它們。
幾個世紀前,我們擴展了數字線,創造了矩形坐標,這非常有用。它們是真正的思維工具,用於推導新的數學發現。勒內·笛卡爾 (René Descartes) 和他的同時代人意識到,你可以將代數表達式與幾何曲線連接起來,以解決各種數學難題,包括這個困擾世界數千年的難題——德利安問題 (Delian problem),也就是如何將一個完美的立方體的體積加倍?使用當時的數學方法非常困難。而矩形座標提供了這個問題的解決方案。
這項發明在過去四個世紀中產生了巨大的影響。它將所有類型的問題(例如找到滿足兩個方程式的值的集合)轉變為基本上依賴於定位兩條曲線之間交點的問題。現在想像一下這個革命性工具接下來發生了什麼。它變成了一種我們認為理所當然的東西。它變得非常有用,以至於對於每一代人的教育來說都變得不可或缺。實際上,地球上每個數學課程都引入了符號和圖形符號的組合,用於表示和操作數學對象。我們所思考的問題是,我們是如何走到這一步的,以及人類思維的什麼特性使這種持續的創新成為可能?
從歷史、人類學和經濟學等多個學科的角度來看,有很多方法可以解決這個問題。認知科學也能在此做出重要的貢獻。這個故事至少可以追溯到 3 萬到 8 萬年前,當時解剖學上的現代人類開始在他們的物理環境中做標記,本質上是將周圍的物體和表面改造成有意義的載體,包括這些具有代表性的洞穴壁畫。
我們顯然沒有止步於洞穴壁畫。人類學習和發現的故事與使隱形可見的技術的故事息息相關。以下是科學史上的一些例子:
- 達爾文的雀鳥和約翰·古爾德 (John Gould) 製作的插圖,古爾德是達爾文密切合作的鳥類學家。只有將這些案例並排展示時,形態上的變化才會變得明顯。
- 伽利略 (Galileo) 使用的望遠鏡觀察木星周圍衛星的運動。他需要這種解析度才能質疑太陽系是如何組織的正統觀點。
- 拉蒙·卡哈爾 (Ramón y Cajal) 對顯微鏡下視網膜的著名繪圖,向我們展示了神經系統的不同部分是什麼樣子以及它們是如何相互連接的。
- 在 20 世紀,費曼圖 (Feynman diagrams)(以物理學家理查·費曼 (Richard Feynman) 的名字命名)向我們展示了亞原子粒子閃爍並消失,這些事件我們實際上無法用肉眼直接觀察到。
與其他物種相比,我們更善於利用這種理解,這種不斷擴展的對世界的理解。我想請大家注意這張投影片上的變化。請注意,其中一些圖像非常詳細且忠實於我們睜開眼睛時看到的視覺世界。以左上角的達爾文雀鳥為例。其他一些圖像則更為示意性。但所有這些例子的共同點是,它們都利用了茱蒂所說的視覺抽象來傳達我們所看到和了解的世界,並以一種突出顯示相關內容的格式呈現。
在此基礎上,我們利用我們對自然世界不斷擴展的理解,透過使用這些學習工具來創造新的事物。例如,我們對物理力學的詳細了解使我們能夠設計和建造高精度的計時設備。許多技術進步都受到我們不斷重新制定我們對世界的理解的能力所驅動,我們用有用的抽象概念來重新設計物理世界。因此,我們將生物學見解轉化為生物工程,將物理理論轉化為先進的物理儀器,將神經科學轉化為醫療設備,並將量子力學轉化為現代電子產品。
這是對茱蒂從中獲得大量靈感的現象的取樣。我們不斷思考的問題是,是什麼讓我們能夠做到這一切?
行為現象
這是一個茱蒂在過去幾年中使用的示意圖,可以幫助她思考關鍵的行為現象,這也將作為嵌入她將與你分享的不同工作線索的框架。這是說明認知心理學中傳統模式的一種方式,認知心理學是茱蒂的學科,它側重於人們如何處理外部世界提供的信息。透過社會認知的研究來豐富這張圖片,社會認知同時考慮多個個體的行為以及他們如何相互作用。當這些活動用於學習世界並與他人分享知識時,它們就被認為與正規科學有重要的相似之處,即使是由非專家在日常生活中進行的。
在這一傳統的基礎上,為了理解人類是如何做出所有那些非凡的發現和發明,茱蒂認為這張圖片中仍然缺少兩個關鍵要素。首先是對認知工具或技術的解釋,這些認知工具或技術是編碼信息的物質對象,旨在對我們的思想、我們如何思考和思考什麼產生影響。其次,她認為現在是擁抱科學的自然補充的時候了,即工程,人們如何利用他們對世界的理解(無論是透過直接經驗還是透過社會中介)來創造新的和有用的事物。因為如果不認真考慮這張圖片的工程部分,她敢說我們將永遠無法解釋我們所知道的世界是如何以及為什麼會變成現在這個樣子。
如果茱蒂必須非常直白地說,她的團隊研究的核心目的是彌合這個循環,開發心理學理論,解釋我們如何發現有用的抽象概念來解釋世界如何運作,並同時開發解釋我們如何應用這些抽象概念來創造新事物的理論。茱蒂今天的計畫是告訴你一些我們迄今為止在這兩個方向上所做的工作。在第一部分,她將與你分享她認為我們已經弄清楚的關於人們如何利用視覺抽象來傳達語義知識,並以手繪作為一個中心案例研究。通常,在第二部分,她會告訴你關於我們調查人們如何在建造符合工程部分的物理事物時學習和協調程序抽象概念的工作。但今天,她想嘗試一些新的東西。因此,她想與你分享一些我們正在進行的工作。她真的很想知道你對探索資料視覺化的認知基礎的看法,在資料視覺化中,人們利用多種信息模式、圖形元素、文字和數字來進行統計推理。換句話說,從有限的證據中了解關於世界的各個方面,這些方面可能難以或不可能透過單個人的直接觀察來了解。她仍然很樂意與大家聊聊我們關於物理組裝和物理推理的工作,可能會在招待會上進行。
視覺抽象
要深入探討第一部分,我們如何開始思考人們如何使用視覺抽象來傳達他們所知道的和他們所看到的?在這裡,我認為思考三個相互建立的行為是有用的。首先,當然是視覺感知,即我們如何將原始的感官輸入轉化為語義上有意義的感知體驗的問題,這反過來又使我們有可能考慮視覺產生,即產生一組標記的能力,這些標記在物理環境中留下有意義和可見的痕跡。這些標記在視覺傳達中結合在一起,即我們如何決定如何安排這些圖形元素以及以什麼順序安排,以便對其他人的思想產生特定的影響,無論是告知或教導、說服、協作還是我們可以將這些標記用於的任何其他目的。
這將是對我將要介紹的三個研究的概述。首先,我們將從什麼是理解某種類別(圖片的子類別)所代表的內容的感知基礎的問題開始。為了起步,我們首先考慮了視覺抽象的最具體和最熟悉的實例化,即手工創建看起來像世界上某種東西的繪圖。是什麼讓這個投影片左側的繪圖如此容易讓人認為它對應於右側逼真的鳥類渲染。對這個問題有很多不同的回應方式。其中兩種方式一直佔據主導地位。首先,第一種觀點是,我們基本上將繪圖視為有意義的並代表事物,因為繪圖只是與世界上的物體相似。就像這個繪圖從字面上看像這隻鳥,這就是我們知道的方式。第二種回應是,繪圖主要根據慣例表示物體,我們只是從其他人那裡學習哪些繪圖與哪些對象的含義相關聯,因此以這個漢字為例。
在早期的一項工作中,茱蒂的密切合作者丹·亞明斯和她的博士導師尼克·布朗和我發現,通用視覺演算法(在這種情況下,神經網路由多個可學習的空間卷積層組成,這些空間卷積層在自然照片上進行訓練)能夠相當強烈地推廣到即使是非常稀疏的草圖,這些草圖本身看起來並不逼真,這表明圖形意義和相似性的問題可能僅僅透過建立更好的視覺處理腹側流模型來解決,尤其是那些準確捕捉這些大腦區域中執行的操作的模型。我們並不是唯一發現這一點的人。Google 學術搜尋引擎中索引了數千篇計算機視覺論文,它們使用某種類型的 ConvNet 或其他基於神經網路的骨幹來編碼草圖和自然圖像,以用於各種應用。所有這些結果都可以認為是證明了更新的現代基於相似性的解釋。它對我們本地來說也是一個非常有用的見解,並具有其他實際意義。因此,在查爾斯·盧 (Charles Lu)(該實驗室的前碩士生)領導的以及與加州大學聖地牙哥分校的王曉龍 (Xiaolong Wang) 合作的最近的一項工作中,我們建立在這些早期發現的基礎上,以進一步壓力測試該相似性解釋,基本上是採用 ConvNet 骨幹,然後在其頂部訓練一個解碼器,該解碼器可以在草圖中的局部元素映射到照片中的特定對應元素,條件是你只能扭曲或揉皺草圖,但不能在其中撕開任何孔。這種方法的成功——我只是在這裡演示。這並不是一個真正的結果。這更像是一個演示——這種方法的成功表明,相當強的空間約束支配著草圖的各個部分如何對應於它們旨在表示的真實對象的各個部分。
太好了。我們有了足夠好的可訓練的草圖理解模型來建立運行良好的下游應用程式。我想我們可以收拾東西回家了。但是,這當然不是故事的全部。視覺處理的靜態確定性解釋不足以解釋我們如何產生和理解像這樣的繪圖,你可能會在本棟大樓周圍發現它們。這些斑點和方塊、彎彎曲曲的線條和箭頭意味著什麼取決於我們在談論什麼。因此,我們的下一個目標是弄清楚如何整合關於上下文的信息,以便開始解釋我們實際上用來傳達的更多種類的圖形表示,從左側那些更忠實的圖片到右側那些更明顯的符號標記。我們的第一篇解決這個問題的論文詢問人們如何知道他們何時需要製作更忠實的繪圖,以及他們何時可以使用更示意性或抽象的繪圖。因此,在該研究中,我們將兩個人配對來玩一個繪圖遊戲。素描者看到一個看起來像這樣的顯示畫面,他們的目標是繪製突出顯示的目標對象,這裡的第三個對象,並且我們改變了顯示畫面中的其他對象。在接近試驗中,干擾物都屬於同一個基本層次類別,而在遠離試驗中,干擾物來自不同的類別。使用這種非常簡單的操作,我們發現普通人可以多麼容易地調整他們使用描繪來進行溝通的方式,在那些接近試驗中,他們製作更詳細和忠實的繪圖,因為他們需要他們的繪圖來唯一地識別一個特定的範例,然後在遠離試驗中,他們製作更稀疏的繪圖,因為他們可以使用這些類別層次的抽象概念。以下是我們在該研究中收集的一些實際繪圖的範例。我們發現,素描者在遠離試驗中使用的筆劃更少,墨水更少,產生這些繪圖的時間更少,同時仍然在將目標視覺概念的身份傳達給觀看者的基本任務中實現了密封準確性,而觀看者自己也花費更少的時間在這些試驗中做出決定。然後,為了捕捉那種行為模式,我們提出了一個素描者的計算模型,該模型由兩部分組成。因此,一個 ConvNet 用於將視覺輸入編碼為一個通用的抽象特徵空間,然後是一個第二個概率決策模塊,該模塊會根據上下文推斷出要繪製哪種類型的繪圖。我只想告訴你該研究的要點,因為我真的很興奮能夠在本演講中介紹其他工作。因此,我們模型消融實驗的要點是,視覺抽象的能力(你將其運作化為視覺編碼器模塊中的網路層)和對上下文的敏感性對於捕捉人們如何設法在適當的抽象層次上傳達關於這些對象的信息至關重要。然後,在最近的工作中,我們進一步推動了這個想法,以了解不僅當前的參考上下文對人們如何交流產生影響,而且還了解當對先前與同一個人的互動的記憶導致人們產生甚至更抽象的(也許甚至是原型符號標記)時,可能會出現新的圖形慣例,這些符號標記的含義在更大程度上取決於那個共同的歷史。所有這些對我來說都是非常令人興奮的進展,但是,人們對世界的了解比事物的名稱或外觀豐富得多。我們使用視覺抽象的一個特別重要的方式,尤其是在科學中,是傳達關於事物如何運作的機械知識。
機械知識
當人們做出那個舉動時,他們的頭腦中在想什麼?超越關於特定鳥類(比如說)在視覺上顯著的內容,以突出顯示潛在的物理機制,例如,鳥類通常如何實現飛行。你可以想像當霍莉·休伊 (Holly Huey)(實驗室中一位出色的前博士生,現在在 Adobe Research 工作)也對這個問題著迷時,我是多麼的興奮。雖然我們從弗蘭克·凱爾 (Frank Kyle) 及其同事的非常酷的工作中了解到,人們在向他人學習時會優先考慮機械解釋,並且從芭芭拉·特韋爾斯基 (Barbara Tversky)、米奇· Chi (Micki Chi)、塔尼亞·隆布羅佐 (Tania Lombrozo) 和其他人的工作中了解到,人們可以透過產生解釋來學習,但我們意識到我們對人們如何看待視覺解釋有很多不知道,例如,人們認為應該在一個說明事物如何運作的圖表中放入什麼,以及這些圖表與僅旨在看起來像某種東西的普通插圖有什麼不同。我將草擬一種可能性,我將其稱為累積假說,即人們基本上認為視覺解釋像是普通描繪的擴展增強版本。因此,在這個表格中,解釋將具有描繪所具有的所有內容來傳達視覺外觀,然後添加關於物理機制的信息。另一種可能性,我將其稱為可分離假說,是人們認為解釋是選出機械抽象概念,同時大大降低視覺外觀的圖像。這裡存在一種選擇性。因此,為了區分這些可能性,霍莉設計了一項研究,透過兩種方式來探究這個問題,首先是詳細描述視覺解釋的內容,並將其與視覺描繪進行比較,其次是衡量這兩種圖像實際上如何幫助下游觀看者執行任務——提取他們真正需要的信息,無論是關於外觀還是關於機制。因此,霍莉沒有講授關於鳥類飛行的課程(這很吸引人但很複雜),而是構建了六個新穎的裝置,這些裝置具有清晰可觀察的用於關閉電路並打開燈的機制。
這是一個機器範例和參與者觀看的教學影片。研究中的參與者實際上看到了兩次——那些示範了兩次的人,但你看。請注意,該機器由三種不同的零件組成。有需要旋轉才能打開燈的因果零件。有看起來非常相似但不實際導致燈打開的非因果零件。然後,彩色且支撐其他零件的背景結構元素非常重要,但不直接參與燈的激活電路。每個參與者都生成了一些機器的解釋和另一些機器的描繪。在解釋試驗中,他們被要求想像他們的繪圖將被其他人用來了解該物體是如何運作的。然後,在描繪試驗中,他們被要求想像他們的繪圖將被其他人用來識別它是哪個與外觀相似的物體。這就是操作。非常簡單。使用該程序,我們收集了每個六個機器的許多描繪和解釋。看著它們,這些繪圖似乎看起來不同。例如,也許在描繪中有一點更多的背景。也許在解釋中有更多的箭頭。但霍莉想在這方面真正系統化,因此她眾包了標籤,將每個繪圖中的每個筆劃分配到四個類別之一,因此每個物理零件的三種類型,背景、因果和非因果各一個類別,然後她的第四個類別是符號的包羅萬象的類別。因此,在這種特定情況下,我們正在談論箭頭和運動線,然後使用那些標籤來比較人們在這些兩個條件下強調哪種類型的語義信息。她發現,雖然人們在兩種條件下都繪製因果和非因果零件,但他們在解釋中分配給因果零件的筆劃比非因果零件多。他們也比解釋更強調描繪中的背景,並且正如我們所懷疑的那樣,他們在解釋中比在描繪中花費更多的墨水在運動和零件相互作用的符號顯示上。
這些結果已經與累積假說的強版本不相容,累積假說預測即使在存在錯誤的情況下,對背景、因果和非因果零件的相對強調也會保持不變。但是,無論這些差異多麼可靠,這些差異可能僅僅等於風格上的變化,這種變化對它們在它們旨在支持的任務中的用途沒有任何影響。因此,為了衡量這些決策的功能後果,霍莉設計了三個不同的推理任務。第一個任務詢問你可以多麼容易地判斷需要什麼樣的動作才能操作機器,因此這裡的拉動、旋轉或推動,你可能會期望一個好的機械解釋能夠清楚地表明。第二個任務是衡量每個繪圖可以多麼好地用於物體識別,這正是描繪應該做的事情。然後,第三個任務是一個更具挑戰性的視覺辨別任務,你必須確定兩個突出顯示的零件中哪個是因果零件,這需要你在繪圖的零件與實際機器的零件之間建立詳細的映射,這是你真正只能從一個也保留了關於機器零件的整體外觀和組織的足夠信息的機械解釋中期望的。因此,在累積假說下,我們應該看到的是解釋至少與描繪一樣適用於所有任務,但在可分離假說下,解釋可能更適用於動作任務,但更不適用於物體任務。霍莉發現的是更符合可分離解釋的結果,在這種解釋中,解釋更好地傳達了機制是如何運作的。但是,在本樣本中,描繪在傳達物體身份方面更好。有趣的是,解釋在那個具有挑戰性的第三個任務中並沒有更好地傳達因果零件的身份,這與這樣一個觀點一致,即透過省略許多背景細節和某些解釋,他們可能已經抽象掉了那些使將繪圖的特定零件與機器的零件連結起來更容易的信息。
這些研究的底線是,人們對應該放入視覺解釋中的內容有共同的直覺,即使這是他們第一次被要求生成一個。這可能意味著犧牲視覺逼真度,以強調更抽象的機械信息。更一般地說,這項工作展示了溝通上下文和目標對於理解為什麼人們以他們的方式繪製、為什麼描繪看起來像它們以及提供一些實驗和分析工具來描述人們用來傳達與目標和上下文相關的視覺信息的策略是多麼重要。然後,在這個下一部分中,我們將詢問開發能夠實現類似人類的視覺抽象的人工系統需要什麼。原因如下。我們從根本上想要有用的視覺溝通科學模型,而我迄今為止展示的工作代表了我們優先考慮進行投資的地方,即開發實驗範式和資料集,以便在更廣泛的設置中以更全面的方式衡量和描述這些行為。同時,我們也投入了相當多的精力來評估不斷發展的機器學習系統隊列中的任何成員能夠繼續成為相關和有希望的候選者,以捕捉這些高維度任務中更詳細的人類行為模式,特別是作為人類圖像理解模型以及圖像創建模型。因此,我們考慮的任務設置靈感來自畢卡索 (Pablo Picasso) 的這組著名繪圖。其中一些非常詳細。最後幾個非常非常抽象,但所有這些都無可否認地是公牛。任何有價值的關於人類視覺抽象的科學模型都應該能夠表示這些碗彼此不同的方式,並且在某種程度上同時在它們的核心中都是牛的,或者更確切地說,它們實際上看起來對真正的觀察者來說是牛的。在這項工作中,這是一項由庫欣·慕克吉 (Kushin Mukherjee) 領導的巨大團隊努力,他將在本週五進行辯護,然後以博士後的身份加入實驗室,再次由霍莉以及查爾斯·盧、雅埃爾·溫克勒 (Yael Winkler)(實際上在這裡)和里約·阿吉納-康 (Rio Aguina-Kang) 做出貢獻。我們從這樣一個前提開始,即對我們是否走在正確軌道上建立這些科學模型的有力檢驗是,我們將能夠像人們一樣建立能夠生成和理解抽象圖像的演算法。草圖理解是其中一項看似簡單但卻對通用視覺演算法構成了根本挑戰的任務,因為一方面,它需要對稀疏性的變化具有魯棒性,就像某些草圖比其他草圖更詳細,你可以這麼說。其次,因為草圖需要容忍語義模糊性,因為草圖可以可靠地喚起多種含義。因此,我們創建了一個基準,我們稱之為 SEVA,以明確地提出這些挑戰。因此,我們收集了由大約 5,500 人製作的 90,000 張手繪草圖,這些草圖包含 128 個視覺概念,並在不同的生產預算下進行。以下是一些範例,說明當人們必須創建由照片提示的草圖時,它的外觀如何。這些是從 THINGS 資料集中拍攝的照片(如果你熟悉該資料集),並且在越來越少的時間內拍攝。因此,到我們到達四秒時,它們是真的非常粗略。然後,我們採用了這些繪圖,然後將它們展示給人和 17 種不同的當時最先進的視覺演算法,這些演算法代表了廣泛的不同類型的架構承諾和策略以及訓練協議。
問:快速澄清一下。人們是否可以在計時器啟動之前進行思考,還是他們看到它然後有四秒鐘的時間?
答:這個問題一直困擾我兩年了。時間不夠。我認為——我們正在研究——同時思考和繪圖。因此,他們看到圖像,然後他們必須確定。因此,這——我們不確切知道——我們——對總試驗持續時間有限制。我認為為了真正理解公牛現象,我會想給他們無限的計畫時間,然後只是有限的執行時間,這才是應該做的方式。但這不是。
因此,還有另一個尚未誕生的資料集,它可以更直接地隔離它。是的。因此,四秒的繪圖非常粗略。這是對它的技術術語,但它們是人們在那些設置中做的。因此,我們有所有這些不同的草圖。在這些條件下,它們看起來像它們的樣子。然後,人和那些視覺演算法都執行相同的草圖分類任務,使我們能夠衡量每個單獨草圖喚起的標籤的完整分佈。我們建立的第一件事是,當你給人們更多的時間來思考並製作一個詳細的——思考如何製作,然後去做一個詳細的草圖時,那些草圖對模型和人來說會更容易識別。透過標籤分佈的熵來衡量,它們的模糊性較小。即使猜測是錯誤的(不是排名第一的),至少更有可能出現在由語言嵌入估計的正確語義鄰域中。因此,這令人放心,但是,我們更深入地挖掘並發現,雖然某些模型確實真誠地在其他模型中執行了更好的識別任務,但模型之間在性能方面的變化完全被模型和人之間的差距所掩蓋,無論是在左側的性能方面,還是在關於草圖含義的相對不確定性方面,都是人類識別中可靠的信號。
這表明,就草圖理解而言,仍然存在相當大的人類模型差距需要彌合。然而,在我們進行此基準測試時,我們注意到 CLIP 訓練的模型優於其他模型,這使其成為探索建立在其上的草圖生產生成模型的合理候選者。因此,我們探索了一種特別酷的草圖生成演算法 CLIPasso 的能力,該演算法的開發由雅埃爾·溫克勒領導。我們要求 CLIPasso 也生成一些草圖,並操縱其生產預算。在這種情況下,現在的單位,貨幣,是筆劃的數量,這與我知道的不同。我們發現,即使人類繪圖和 CLIPasso 的繪圖在四個生產預算中都具有相似的可識別性——順便說一句,這種可識別性的重疊完全是巧合的,因為單位的差異完全不同。但我們發現,真正有趣的發現是人類和 CLIPasso 以不同的方式稀疏化他們的繪圖。
資料視覺化
我將向你簡要介紹我們在多模式抽象以及它們如何用於支持統計推理方面最新的且大部分未公開的工作。回到笛卡爾坐標平面。我們是一間充滿科學家的房間。你不需要我來告訴你,當你對世界進行觀察時,它永遠不會這麼乾淨。與其說是完美的線條,不如說我們實際上可能會收集到像這樣的東西,一個資料點的集合。它們落在它們落下的地方,我們試圖從中推斷出一些潛在的結構,以及實際的生成器——產生它們的實際生成過程。這種推理動作是科學推理的基本組成部分,我們當然不是僅僅透過記憶我們所見過的一切並認真思考來做到這一點。我們使用技術。在我的演講開始時,我向你展示了這些使用手繪作為一種特別持久、多功能和易於訪問的工具的範例,用於使隱形可見。我認為這非常了不起,值得理解。
也許在現代時代開發的最有影響力的技術之一是資料視覺化的發明。像望遠鏡和顯微鏡一樣,圖表有助於解析你無法直接看到的世界的各個部分。但與這兩種光學技術不同,它允許你看到可能太大、太嘈雜、太慢而無法用我們自己的眼睛看到的模式和現象。它們在新聞中無處不在,是商業和政府中基於證據的決策的基石。它們在每個科學和工程領域都是不可或缺的。我向你展示的是威廉·普萊費爾 (William Playfair) 在 1786 年繪製的第一個時間序列圖之一,用於顯示 1700-1780 年 80 年間英格蘭的進出口平衡。有一段時間,進口超過出口,但隨後在 1750 年代,隨著出口真正起飛,這種關係發生了轉變。這就是問題所在。與達爾文雀鳥的繪圖不同,如果你以前從未見過這種圖像,那麼你可能不清楚你在看什麼。但是,一旦你學會了如何看,它就是一種超能力。如此多的個人觀察可以被提煉成一個單一的圖形,該圖形講述了一個你可以透過查看來閱讀的故事。這還不是關心圖表的全部原因,因為它們是幫助人們更新和校準他們對複雜世界的信念的如此強大的工具,開發閱讀、解釋甚至製作圖表的技能長期以來一直是這個國家 STEM 教育的目標,隨著時間的推移,這一點變得越來越重要。《紐約時報》發表了一篇報導——這實際上是大約一年前的——關於從與新冠病毒相關的數學學習損失中恢復的情況,該報導基於史丹佛大學和哈佛大學的一些教育同事領導的工作,看起來在許多不同的州,橙色箭頭就在那裡,這意味著已經有一些恢復。但還有很長的路要走。我認為,解釋人們如何使用這些圖像、發現和傳達重要定量見解的成功理論將有助於我們為人們提供他們更普遍需要的定量資料素養技能。
我將簡要強調我們在這方面追求的三個方向。我們的第一個問題詢問理解圖表所需的基礎操作。我們採取的策略是獲得能夠處理有關資料視覺化的問題的機器學習系統,評估與人的對齊,然後探究任何這些差距的來源——可能存在的任何差距。當然,為了開始,我們需要某種衡量理解力的方法。以下是它的外觀。假設我們一起看這個堆疊條形圖,有人問你關於拉斯維加斯花生價格的問題。花點時間將所有內容都考慮在內。四處掃描。假設那個人然後給你四個選項可供選擇。如果當時你認為是 A,那你就答對了。但對於同樣的問題,一些著名的視覺語言模型並非如此。因此,在阿納夫·維爾馬 (Arnav Verma) 領導的令人難以置信的基準測試工作中(他是實驗室的一名現任研究助理,實際上將在秋季前往此處的 ECS 計劃),我們對人和 AI 系統在六個常用於基於圖表的推理測試中進行了仔細比較,這些測試來源於教育、健康、視覺化、心理學、機器學習社群。所有六個測試都以盡可能平行的方式管理給人類參與者和其中幾個所謂的多模式 AI 系統,這些系統已被聲稱在其他種類的視覺基礎推理任務中顯示出能力。然後,我們不僅記錄了人和這些模型獲得的總體分數,還記錄了它們產生的全套錯誤模式,這使我們能夠評估即使模型或人答錯了一個問題,也可以查看他們是否以類似的方式出錯。
我們發現了什麼?在這裡,我將向你展示我們包含的六個測試中的每一個,它們都有有趣的名字,例如 GGR、VLAT、CALVI、HOLF、HOLF-multi——實際上,我們製作了那些——那裡的不好的名字是我的錯——還有 Chart-QA,這是 Chart QA 的一個子集。我們記錄了每個模型的表現如何——因此這些是在藍色、橙色、紫色和紅色的 xticks 上顯示的模型——與人類的表現相比如何。這將以綠色顯示。這些是至少上過一門高中數學課的美國成年人。首先,我想讓你了解這些人的表現如何。這是我們這裡的參考點。這是所有模型的表現。因此,在這項研究中,我們有 Blip2-FlanT5 的兩個變體,lava-based 模型的 三個變體,專門的系統,例如 matcha 及其基本模型 picks destruct,最後是一個封閉的專有模型,GPT 4 V。在所有這些評估中,我們確實看到了模型和人之間有意義的差距,無論是在更寬鬆的還是更嚴格的評分協議下。如果我們只依賴機器學習文獻中目前最流行的圖表理解基準,我們可能會錯過這個差距,這就是我們包括 Chart-QA 的原因,Chart-QA 是此投影片上最右側的方面,其中差距似乎小得多。CALVI 是第三個,非常有趣,因為這些是對抗性設計的圖表,它們具有有趣的 y 軸限制,需要你真正密切關注。因此,這是一個我們也看到較大差距的地方。我們還分析了它們的完整錯誤模式,因此——當沒有人完全達到上限時,這可能非常說明問題。同樣,只有一種方法可以答對所有問題,但有很多方法可以犯錯,而且可以可靠地犯錯。因此,我們發現即使 GPT 4 V 可能看起來接近人類水平的表現,但這些模型(包括 GPT 4 V)都沒有產生類似人類的錯誤模式。因此,這顯示為所有點都遠低於綠色陰影區域,該區域代表人類噪音上限。簡而言之,雖然當前正在開發的 VLM 仍然是令人興奮和有希望的測試平台,用於開發和參數化視覺化理解的可能認知模型的假設空間,但仍然存在這些值得進一步探究的系統行為差距,以實現這些模型的全部潛力。
統計推理
同時,我們還一直在開發實驗範式,以探究視覺化理解的相關方面,即選擇——設計選擇——解決你的認知目標的適當圖表的能力。我接下來要和你談談。我們設定問題的方式是想像你對資料集有一些問題。我一直稱之為認知目標,即一個人試圖滿足的目標,例如,哪個群體更好。假設左邊的代理人試圖選擇圖表來幫助適當地轉變這個人的信念,但如果他們有不同的問題,也許他們可能需要不同的圖表。這就是直覺。這是霍莉·休伊啟動的一項工作,我們在一項研究中制定了數百個不同的問題,這些問題原則上可以透過使用真實的公開可用的資料集來回答,在這種情況下,是你的與基本 R 一起提供的資料集。以下是一個可怕的範例,追蹤飛機和鳥擊。在多雲天氣中飛行的遇到鳥擊的飛機的平均速度是多少?然後,我們向參與者展示了一個菜單。
問:朱迪,我可以問一個問題嗎?
答:當然。
問:5K 英里是多少?
答:高度。是的。
問:你確定不是 5,000 英尺?
答:抱歉,五——等等。等等。這可能是——這可能是我的筆誤。我不認為這個問題繼承了這一點。
問:無論如何。別擔心。
答:我不——我——我開始擔心,但我現在要抵制這種衝動。不,不,我認為——是的。
答:但這些——如果這是他們充滿各種錯字的標準。
答:這是一個範本——有一個範本的東西。我認為有——基本上很多這些問題都很奇怪,我認為它們本可以更平滑地處理。所以這就像——是——是的。是的。好的。好的。因此,我們有所有這些問題。其中一些比其他問題提出得更好,但是我們向參與者展示了一個可能的圖表菜單,他們可能會向其他人展示這些圖表,