CEöversättningsbyråKan nätverkad ”human computation” lösa datorers språkförståelse?

Kan nätverkad ”human computation” lösa datorers språkförståelse?

Innehållsförteckning

Forskare vid University of Essex hoppas kunna svara på denna fråga genom att få fler frivilliga att delta i deras onlinespel, Phrase Detectives.

Jon Chamberlain, från Essexs School of Computer Science and Electronic Engineering, förklarar: ”Mänskligt språk är inte en osammanhängande serie ord, fraser och meningar utan en serie människor, objekt och idéer som refererar till varandra på olika sätt. Komplexiteten i ett språk gör att det låter ”naturligt” för en läsare, men det kan vara svårt att definiera de regler som gör att vi kan förstå det.

”Begrunda följande påstående: ”Mary är en lärare på 25 år. Hon bor i England.” En mänsklig läsare kan lätt ta reda på fakta om Marys yrke, ålder och hemvist genom att t.ex. veta att ordet ”hon” refererar till personen ”Mary”. Att förstå denna typ av språkreferens är däremot en utmaning för programmerare när de utvecklar datasystem som försöker förstå text, som t.ex. sök-, översättnings- och sammanfattningssystem”.

Det är här som det arbete som utförs av de som spelar Phrase Detectives blir viktigt. Spelet, som är en del av ett större projekt kallat AnaWiki, är ett försök att ta itu med den flaskhals som det innebär att skapa kommenterade lingvistiska resurser. Genom att till en början utreda anaforiska referenser (som i exemplet ovan) försöker man med projektet att utveckla en resurs som är större än någonting som är tillgängligt för närvarande.

Spelare (eller detektiver) registrerar sig på: www.phrasedetecives.org och läser igenom texter, gör anteckningar för att understryka relationer mellan ord och meningar. De kan bli tillfrågade att ”utse boven”, och de får ett ord eller en mening som de måste leta efter i tidigare delar av texten. Till exempel: ”Sherlink Holmes gick till affären. Han köpte lite tobak till sin pipa.” Ordet ”han” refererar till ”Sherlink Holmes”.

Jon fortsätter: ”De som spelar spelet hjälper till att skapa en resurs som är rik på lingvistisk information och som förbättrar framtida teknologi. Målet med projektet är att samla en betydande mängd data och undersöka möjligheten att använda massamarbete för att utveckla datasystem.

”Det bästa sättet att förstå ett språk är att ha en massa exempel där man har redogjort för innebörden. Tyvärr är denna typ av resurs både tidskonsumerande och dyr att skapa. Den nya metoden som erbjuds av Phrase Detective bör dock kunna åtgärda denna resursbrist. Samma metodologi kan även användas för att skapa resurser för maskinöversättning, semantik och andra lingvistiska fenomen.”

Hitintills har spelare gjort över 40 000 anteckningar under fyra veckor. Forskarna hoppas dock på att fler kommer att delta som detektiver och att människor kommer att lägga till ny text till platsen för analys.

Phrase Detectives kan definieras som en del av genren ”spel med ett syfte” (GWAP) som samlar data som bilder, texter och musik. Det viktiga elementet i dessa spel är att spelare får poäng genom att hålla med varandra. De motiveras att samarbeta med sina partners för att får så många poäng som möjligt. Detta tillförsäkrar att spelare anstränger sig för att tillhandahålla god, kvalitativ information, eftersom detta kommer att resultera i den högsta enighet.

Forskarna från Essex tror att Phrase Detectives är det första försöket att samla lingvistiska omdömen med hjälp av ett roligt, samarbetsinriktat onlinespel. Målet är att göra uppgifterna och texterna intressanta så att det känns mer som ett datorspel än en lingvistisk uppgift. De data som samlas kan sedan användas för att förbättra datasystem som försöker att förstå text. De skulle t.ex. kunna hjälpa sökmotorer att hitta information som är mer relevant för olika sökningar.

Så, kan nätverkad human computation verkligen lösa komplexa språkförståelseuppgifter på datorer? Initiala resultat från betaversionen av spelet ser lovande ut och en mer detaljerad analys kommer att slutföras i början av 2009.

error: Innehållet är skyddat

CE