På internet går allt fort... (av Jonas)
...ibland lite för fort. Några veckor sedan så lanserades siten 10x10 i samband med Bloggercon'04 och när jag såg den insåg jag genast att något liknande kunde låta sig göras på bloggkartan. Så jag skrev ihop ett program som extraherade alla ord från de sista dagarnas ping och rangordnade dem efter ordfrekvens. Det blev ungefär så här:
| nr | antal | ord |
| 1 | 1500 | att |
| 2 | 1466 | och |
| 3 | 1360 | det |
| 4 | 1046 | jag |
| 5 | 1017 | är |
| 6 | 1000 | som |
| 7 | 991 | en |
| 8 | 937 | på |
| 9 | 723 | the |
| 10 | 684 | inte |
vilket kanske inte var så jättespännande, även om det indikerar att bloggar på svenska är vanligast; första engelska ordet kommer på nionde plats1. Tanken var förstås att signifikanta ord för dagen, veckan, månaden eller året skulle dyka upp. Det som framför allt fattades var en stopplista; det vill säga en lista på hjälpverb, prepositioner, konjuktioner, adverb, och en mängd andra ordklasser jag och karin glömt sen högstadiet.
Efter att ha skrivit in så många ord från de fasta ordklasserna som vi kunde komma på, både på engelska och svenska, och en hel del ord till så var det uppenbart att de mest signifikanta orden alltid skulle vara bloggar, svenska, blogg, och sverige. Oavsett tidsperiod man tittade på. Bort med den svenska bloggosfären och plötsligt såg listan ut så här:
| nr | antal | ord |
| 1 | 46 | arafat |
| 2 | 31 | firefox |
| 2 | 31 | kvinnor |
| 3 | 24 | observer |
| 4 | 22 | män |
| 5 | 21 | människor |
| 5 | 21 | barn |
| 6 | 17 | information |
| 7 | 16 | samhället |
| 7 | 16 | media |
Bra mycket bättre alltså2. Tanken var då att man som första steg i alla fall kunde göra en lista över populära ord varifrån man länkade till de bloggar som pingat dem. Ifall man sparade den vecka för vecka så skulle man om ett år kunna gå tillbaka och se vad som var populärt i början på november det här året, precis som man kan på på 10x10, très cool! Jag jobbade vidare med listan och urvalet av ord, mer om det i senare inlägg, utan att ha en aning om att jag några dagar senare skulle se den funktionen annonseras på intressant.se:s utvecklingsblog3, inspirerat av daypop:s word burst.
Tillbaka till ritbordet med andra ord! Om man inte fokuserar på de mest populära orden, ja då kanske man kan fokusera på ovanliga ord, de som kommer långt ned i listan? Eller kanske på långa ord eller orden med många konsonanter? Eller på ord helt enkelt, alla sorters ord.
En blog om ord var vad det fick bli och vi får se vad det blir av den. Klart är i alla fall att för var dag som går så finns det mer data att analysera. Själv var jag redan från dag ett förlorad i sökningar bland orden, det här hittade jag idag när jag sökte efter karin:
| nr | antal | ord |
| 44 | 1 | karinmått |
| 44 | 1 | karin |
| 44 | 1 | älskarinna |
hmm... intressant! ;)