0 Daumen
894 Aufrufe
Hallo,

ich programmiere gerade ein wenig an einem Programm rum, das analysieren soll, ob zwei Texte von demselben Autor stammen. Dazu werden u.A. Rechtschreibfehler in den beiden Texten verglichen.

Jetzt mĂŒssten aber verschiedene Rechtschreibfehler verschiedene Wichtungsfaktoren haben, da sie unterschiedlich hĂ€ufig vorkommen.

Wenn man z.B. den Rechtschreibfehler "misserabel" statt "miserabel" betrachten wĂŒrde, kommt der nur selten vor (38.300 Google-Ergebnisse).

Der Rechtschreibfehler "entgĂŒltig" statt "endgĂŒltig" kommt aber öfter vor (612.000 Google-Ergebnisse).

Also mĂŒsste "misserabel" fĂŒr einen Text charakteristischer sein als "entgĂŒltig", also einen höheren Wichtungsfaktor bekommen. Kommen in zwei Texten z.B. "misserabel" vor, ist es wahrscheinlicher, dass beide Texte vom selben Autor stammen, als wenn in beiden Texten "entgĂŒltig" vorkommt.

Mal ungeachtet dessen, dass man eigentlich auch beachten mĂŒsste, wie hĂ€ufig generell Wörter wie endgĂŒltig und miserabel verwendet werden (darĂŒber habe ich noch nicht nachgedacht, wie man das mit einberechnen könnte. Vielleicht habt ihr ja eine Idee?), wie könnte man die Wichtungsfaktoren berechnen von Rechtschreibfehlern, die x-mal vorkommen und welche, die y-mal vorkommen?

Eine Idee von mir wÀre jetzt, dem Rechtschreibfehler mit dem geringsten Vorkommen den Wichtungsfaktor 1 zu geben und alle anderen nur relativ zu diesem.

Also Wichtungsfaktor "misserabel" = 1

Wichtungsfaktor "entgĂŒltig" = 38.300/612.000 = 0,06258

usw.

Kenne mich mit Statistik eher ĂŒberhaupt nicht aus ^^ Also was meint ihr?

 

Danke,

Thilo
von 4,3 k

1 Antwort

+2 Daumen

Nimm doch den Kehrwert

Wichtungsfaktor misserabel = 1/38300

Wichtungsfaktor entgĂŒltig 1/612000

Vorteil. Hier brauchst du nichts normieren.

von 278 k

Ein anderes Problem?

Stell deine Frage

Willkommen bei der Mathelounge! Stell deine Frage sofort und kostenfrei

x
Made by a lovely community
...