« Nordea utsatt för phishing/fraud igen | Startsidan | Spådomen går nog inte in »

31 augusti 2006

MSRBot web crawler

Vad sysslar Microsoft med?
Jag har mailat och fråga vad de menar med detta nedan,
men jag tvivlar starkt på att jag får svar.

We are using the MSRBot web crawler to collect data from the web for further study.

För vilket ändamål?
I vilket syfte?

Jag har börjat få mycket besök av MSRBOT.

Går det verkligen att lita på deras råd?

The "robots" tag is obeyed by many different web robots. If you'd like to specify some of these restrictions only for MSRBot, you may use "msrbot" in place of "robots". You can also combine these tags into a single meta tag.

<META NAME="msrbot" CONTENT="noindex,nofollow">

Någon som testat ovanstående meta-tagg? Det finns ju seriösa sökrobotar som exempelvis Google som gärna får indexera sidorna och dem vill nog ingen förhindra att de sköter sitt jobb. Men när det inte framgår vad MSRBot web crawler har för syfte drar i alla jag öronen åt mig.

Jag ska kolla om samma ip-nummer används hela tiden och då åker det in i min .htaccess-fil, om nu ingen kan ge mig en vettig förklaring vad Microsft sysslar med, de själva eller någon annan.

Update: Svar finns direkt via Microsoft i kommentarerna.

// Annica Tiger

Annica Tiger augusti 31, 2006 08:30 FM

Kommentarer

Christofer - vettigt besked direkt i bloggen. Tack. Då får MSRBot crawla runt i lugn och ro :).

Annica

Skrivet av: Annica Tiger datum: september 1, 2006 04:26 EM

Hej Annica!

Liksom många andra forskningsinstitut samlar Microsoft Research in öppet tillgänglig data från webben för forskningsändamål. Det här är absolut inga konstigheter. Informationen helt enkelt används i olika forskningsprojekt. Vi använder inte specifik information utan tittar enbart på trender och statistik i stora datamängder. Det kan tex handla om att ta fram och förbättra ny teknologi för att söka i stora mängder data, såsom till exempel MSN Search. Det kan också handla om forskning kring Blog-fenomenet som sådant. Våra forskare är intresserade av hur stort genomslag bloggar har idag som informationskälla, hur ofta de uppdateras i genomsnitt och på vilket sätt de kopplas samman med andra bloggar. Syftet med forskningen är att ta fram ny teknologi, ny programvara och nya funktioner som kan förenkla för användarna och göra internet ännu bättre.
För mer information om vår forskning på området kan du läsa på http://research.microsoft.com/research/sv/web-group/
För information om hur MSRBot fungerar kan du läsa på http://research.microsoft.com/research/sv/msrbot/
Där finns även information om hur du kan gå tillväga om du inte vill att dina sidor samlas in av MSRBot.

Vänliga hälsningar

Christofer Björkvall
PR-chef
Microsoft Sweden

Skrivet av: Christofer datum: september 1, 2006 10:46 FM

Vad de skall undersöka tja, antagligen samma saker som Googles toolbar, fast med den skillnaden att toolbaren lär vara mycket effektivare.
Hoppas bara att Google/MSN med flera inte gör samma sak som AOL gjorde http://www.aftonbladet.se/vss/it/story/0,2789,869399,00.html

Skrivet av: gester datum: augusti 31, 2006 04:46 EM

" We are using the MSRBot web crawler to collect data from the web for further study."

Det är alltså inte en sökmotor i vanlig bemärkelse, vad är det de ska undersöka/studera?

När det gäller Microsoft blir jag lite konfunderad.

Annica

Skrivet av: Annica Tiger datum: augusti 31, 2006 03:20 EM

Man kan naturligtvis aldrig vara säker på att robotar följer sina egna officiella riktlinjer - såväl medvetna avsteg och rena buggar vid implementation kan ju ställa till det.

Vill du spärra IP-nummer ser det ut som att du måste ta en hel subdomän: http://www.internetofficer.com/web-robot/msrbot.html

Dock är frågan, varför denna oro? Vad publicerar du på internet som du INTE vill att någon annan ska läsa? Att vägra sökmotorers robotar tillträde är väl att skjuta sig själv rejält i foten som internetpublicist?

Sen kan jag ju för all del förstå och hålla med om du känner en viss allmän sund skepsis baserat på att microsoft är inblandade...

Skrivet av: hakko datum: augusti 31, 2006 09:39 FM