Compound words and spell checking.
A spell checker checks a text, if it is correctly spelled. A text is correctly spelled, if it follows the grammatical rules of the language it is written in, and if it uses the word set that belongs to that language. These two things are checked by the spell checker. It usually works by comparing the words of the text with a predefined set of words. Since words can have prefixes and suffixes in any language, the spell checker must consider all possible prefixes and suffixes for the checked word. If neither the word matches nor the modifications with prefixes and suffixes result in a known word, the word will be flagged as wrong. If a word is flagged as wrong, it either is not contained in the word and prefix and/or suffix list of the checkers list or it is really an erroneous, either erroneously spelled or not existing word.
All languages support more or less the concept of compound words. Compound words are words combined from two or more root words. In English, for instance rain+drop = raindrop, rain+coat= raincoat, straw+berry = strawberry, and so on. Some languages are friendly against compound words, that is, they support lots of compound words, others, like English are reserved against compound words, and use only few compound words.
When words are collected for a given language, and the language has hundreds of thousands of compound words, the collecting people ask themselves (and others), if it is possible to let the computer collect the compound words, even at run time, since collecting all those words can be a tedious and long task.
The way to verify that is to collect words of a given language for example from the web, pre-select the collected words by a rough pre-collecting program and then evaluate the quality of the collection.
First the theory: Let assume, a language contains 25 thousand root words, that can be combined to compound words. If we allow only two root words to be combined into a compound word, in the above case we have about 625 millions of compound words. Out of those 625 millions of words clearly 624 millions of words are nonsense, that are not part of the given language. Some of the achieved words will be grammatically erroneous, since they do not contain the glue that is needed to achieve a valid word. For example in German Motor+Schraube=Motorenschraube,(+en) Arbeit+Amt=Arbeitsamt (+s), Maschine+Bau=Maschinenbau (+n), Hund+Kot=Hundekot (+e), Arbeit+Nehmer=Arbeitnehmer, halten+Linie=Haltelinie (-n), Adresse+Register=Adressregister (-e), laufen+Feuer=Lauffeuer(-en). A glue is applied to the first word, either s, e,n or en,-e, -n or-en, or something similar. In Hungarian the same thing is true: hajó+kapitány= hajóskapitány,(+s) had+hajó=hadihajó, (+i) gyümölcs+tál=gyümölcsöstál, (+ös) köt+tű=kötőtű (+ő) etc...
Assuming, we collected all the words manually that need glue and we exclude those words, that need glue from the collection of the collecting program, we still have a lot of problematic words, that are not part of the used language and that are even erroneous words, that get "good" due to the collection by the program. Some examples in Hungarian for such wrong words:
agár+olló= agárolló nonsense word, correctly agrárolló.
fing+ugor= fingugor nonsense word, probably finnugor.
fog+dalom (fogd+alom) = fogdalom nonsense word, probably fogadalom.
fogó+szél= fogószél nonsense word, probably forgószél.
hajó+ér = hajóér nonsense and also wrongly spelled word, correctly hajóért.
hír+ondó= hírondó nonsense word, probably hírmondó.
láp+ón= lápón nonsense and also wrongly spelled word, correctly lápon.
motor+öl= motoröl nonsense word, presumably a German one: Motoröl
szív+érc= szívérc nonsense word, correctly szívért.
szűr+nyű= szűrnyű nonsense word, correctly szörnyű.
tó+váz=tóváz nonsense word, probably tovább was meant originally.
örvényhozás=törvényhozás. Missing first character. There are lots of errors of this type like:
ízparancsolat = tízparancsolat.
agyarország = Magyarország
összegfog = összefog. Wrong character in word, other examples below:
összegtett = összetett
ívóvíz = ivóvíz
ínfiltrál = infiltrál
ínkontinens = inkontinens
úrállomás = űrállomás. Wrong character in word, other examples:
úrhajó = űrhajó
borruha = bőrruha
övintézkedés = óvintézkedés
üzenttett = üzentet. üzent+ tett creates a completely senseless, erroneous word
örömboldogság = öröm boldogság. Words that mean the same, therefore they form no compound word
Nonsense or erroneous words found in the German word list:
AA+Achtung=AAAchtung misspelled form of the word Achtung
Ab+Gebot=Abgebot Non existing word, probably Aufgebot
Damen+Ober=Damenober first part of of the word Damenoberkleidung, standalone senseless
Haus+anstellten=Hausanstellten misspelled form of the word Hausangestellten
Haus+Art=Hausart misspelled form of the word Hausarzt
Haus+Leib=Hausleib misspelled form of the word Häuslein
he+heben=heheben misspelled form of the word beheben
per+rücken=perrücken misspelled form of the word Perücken
suche+nach=suchenach misspelled form of the words suche nach
Sud+Amerika=Sudamerika misspelled form of the word Südamerika
Tag+Buch=Tagbuch misspelled form of the word Tagebuch
Tisch+Tau=Tischtau non existing word, probably Tischtuch was meant.
Tran+Port=Tranport misspelled form of the word Transport
Über+Nacht=Übernacht misspelled form of the word Übernachtung or über Nacht
Uns+Leber=Unsleber non existing word
Ver+Brau=Verbrau non existing word, presumably the first part of Verbraucher
Zug+Griff=Zuggriff misspelled form of the word Zugriff
The here listed erroneous words by no means cover the full scale of possible errors, they are just a very small selection of them.
The examples show us, that programmatic compound word generation unavoidably causes lots of non existing, even grammatically erroneous words, that are clearly not part of the checked language to be acknowledged as correct. Programmatic generation of compound words can be a great help when we collect words from different sources, but is the wrong choice as a tool for for spell checkers. The right way is to collect the available words of the given language. Practically the real word set in any language is not above 1 million words, and the used word set is not above 700 thousand words, that can be collected. I assume this size, because the very well documented German language has 3 leading dictionaries: Wahrig, Mackensen and Duden, each of which has its own strength. The sum of the words, that these dictionaries contain, does not exceed 800 thousand words. Let's add the special words for physics, chemistry, mining, mathematics, medicine, music, etc, each maximal 20 thousand words, we still remain below the limit of 1 million words. Even by using a collection of 300 thousand word one can work quite productively using a spell checker.
By program generated combined words are useful at the starting phase of the word collection, but are quality killer in the later period of the spell checker usage.
In the Hungarian affix generator some additional flags were added to indicate, that a word is already compound or that a word cannot stand as s compound word. These flags complicated the Hungarian affix generation quite a bit. The internal logic forbade some combinations, that sometimes lead to non accepting of valid combinations. This internal logic was continuously "improved", but the final result is discouraging. The flags and programmatic measures helped to hide the quality decrease used by the compound word generator, but could not really improve its quality. It still generates innumerable bad words. Its most useful feature is, that it can be switched off by some switches in the .aff file.
The flag, if a word is already compound is necessary, to avoid, that the spell checker considers whole lines of written together words to be good. This is the case for example when using the MS-Word spell checker for Hungarian - it does not see erroneously written together words, and for humans completely unreadable texts are therefore considered as correct texts. An example for such unreadable text: Thesewordsareswrittentogetherandsomespellcheckersconsiderthemascorrect. To define such a flag "correctly" is almost impossible, since languages, that use compound words, do not limit themselves to two words as compound word, but there are practical limitations, individual for each compound word. Examples for multiple compound words are Arbeitsamtsgebäude or kötőtűhegy.
An important difference between Hungarian and German is in compounding the usage of plural in other than the last compounded word. This is in Hungarian in no word the case, and plural in not the last word is generally an error in Hungarian. This, because Hungarian uses plural much more sparsely than Germanic languages. German and Dutch compound several words as not last element only in plural, for example Schraubenzieher, Katzendreck, Küchentisch and others. Several words are sometimes as plural in as not last element, sometimes singular, like Hauswand vs. Häuserreihe or Buchbinder vs. Büchersammlung.
For the German generator one could also define similar indicators, for example to indicate, if this word uses glue, and if yes, which kind. However, as we saw, there exist both Arbeitsamt and Arbeitnehmer, or Motorenbau and Motorflug, which are only correct in the given form. That means, that the kind of glue has to be given for each compound word, that also indicates, that it is much less work to add all compound words to the list, than such laborious but less effective and error-prone flags. There are also some compound words, whose ingredients are not available as single words. Such are in German Stiefeltern, Allzweckmittel, ... where the words Stief or Allzweck are not used and listed as single words, and therefore would not be generated even if a generator existed.
Systematically collected compound word error types in Hungarian (without the claim of completeness). The "corrected" field shows, what the writer presumeably intended to write down:
| type | example | corrected |
not compoundable words put together | származóegyéb | származó egyéb |
| szentülés | szentül és |
| . city or location name | panamacsatorna | Panama csatorna |
| kanáriszigetek | Kanári szigetek |
| parázsszög | Parázsszög |
| sziksóstó | Sziksóstó |
| ráckeresztúti | Ráckeresztúr |
| siócsatorna | Sió csatorna |
| szervitatéri | Szervita téri |
| zsázsaforrás | Zsázsaforrás |
| savóvölgy | Sajóvölgy |
| somlóvolán | Somlóvolán |
| köztársaságtéri | Köztársaság téri |
. company or personal name | keletterv | Keletterv |
| mariskova | Mariskova |
| molnárprofesszor | Molnár professzor |
. nation names added to another nation's name | töröktatár | török tatár |
. nation name and another word | mongoldúlás | mongol dúlás |
| perzsaépítészet | perzsa építészet |
| portugálvetélkedés | portugál vetélkedés |
| tatárveszedelem | tatár veszedelem |
| tóthangsúlyozás | tót hangsúlyozás |
. similar or complementary words combined | pedagógustanár | pedagógus tanár |
| maximumcsúcs | maximum csúcs |
| napközióvoda | napközi óvoda |
| rovarbogár | rovar bogár |
| rétlegelő | rét legelő |
| lófaszpicsa | lófasz picsa |
| macskakutya | macska kutya |
| totólottó | totó-lottó |
| tényfaktum | tény faktum |
| tölgybükk | tölgy bükk |
| sertésdisznó | sertés disznó |
| színházmozi | színház mozi |
| trombitahegedű | trombita hegedű |
| varjúdenevér | varjú denevér |
| helyzetszituáció | helyzet szituáció |
| húsvétkarácsony | húsvét karácsony |
| internetintranet | internet intranet |
| istenkirálycsászár | isten király császár |
| szülésznőgyógyász | szülész-nőgyógyász |
| tanítópedagógus | tanító pedagógus |
| testlélekszellem | test lélek szellem |
| patkánymadárhal | patkány madár hal |
| szarvasoroszlán | szarvas oroszlán |
| szégyengyalázat | szégyen-gyalázat |
| szégyennemszégyen | szégyen, nem szégyen |
| . attribute in word | kezdőnap | kezdő nap |
| rémhosszú | rém hosszú |
| lazítóhatás | lazító hatás |
| lengőszerkezet | lengő szerkezet |
| mindenkimenet | minden kimenet |
| mindenkiállító | minden kiállító |
| rengőbölcső | rengő bölcső |
| valóigaz | való igaz |
| narancsgomb | narancs gomb |
| sodrófolyó | sodró folyó |
| sugárzóadó | sugárzó adó |
| szarbanda | szar banda |
| vadfolyam | vad folyam |
| semmiprobléma | semmi probléma |
| sikongatókurva | sikongató kurva |
| tartalmazógáz | tartalmazó gáz |
| tavalynyári | tavaly nyári |
| tegnapnyílt | tegnap nyílt |
| vastagbevonat | vastag bevonat |
| városkülönböző | város különböző |
| városversengő | város versengő |
| védelemanyagi | védelem anyagi |
| városhódoló | város hódoló |
| állandópisilés | állandó pisilés |
| állandókeverés | állandó keverés |
| telelábas | tele lábas |
| rajongóhölgy | rajongó hölgy |
| szomszédkapu | szomszéd kapu |
| tartozóhátsó | tartozó hátsó |
| terhesasszony | terhes asszony |
| vakgyanakvás | vak gyanakvás |
| vakgyűlölet | vak gyűlölet |
| vaknémafilm | vak néma film |
| vakszeszély | vak szeszély |
| átfogótudás | átfogó tudás |
| klasszicistahatás | klasszicista hatás |
| hollandállampolgár | holland állampolgár |
| imádsághatalmas | imádság hatalmas |
| indulóalkalmazás | induló alkalmazás |
| intrikushangütés | intrikus hang ütés |
| mindegyikhelyezés | mindegyik helyezés |
| mindenkihallatszás | minden kihallatszás |
| mindenkiránézés | mindenki ránézés |
| normáliseloszlás | normális eloszlás |
| osztályostanuló | osztályos tanuló |
| pazarláscsaládi | pazarlás családi |
| piaristagimnázium | piarista gimnázium |
| rendestársaskocsi | rendes társaskocsi |
| származóbecslés | származó becslés |
| származóbevétel | származó bevétel |
| tartózkodókocsi | tartózkodó kocsi |
| történőfelvétel | történő felvétel |
| történőhegesztés | történő hegesztés |
| történőszállítás | történő szállítás |
| történőátszervezés | történő átszervezés |
| irányulóeljárás | irányuló eljárás |
| irányulóengedély | irányuló engedély |
| keresztyéntanítás | keresztyén tanítás |
| kereszténykurzus | keresztény kurzus |
| kommunistapartizán | kommunista partizán |
| londonifelmérés | londoni felmérés |
| nyújtófaborítás | nyújtó faborítás |
| nyújtóintézmény | nyújtó intézmény |
| oknyomozóriport | oknyomozó riport |
| országkülönböző | ország különböző |
| plüsskulcstartó | plüss kulcstartó |
| reformátuspüspök | református püspök |
| rendkívüliesemény | rendkívüli esemény |
| rendkívülihavazás | rendkívüli havazás |
| rendhagyójelképtár | rendhagyó jelképtár |
| ropogóscseresznye | ropogós cseresznye |
| röhögésfullasztó | röhögés fullasztó |
| szolgálóberendezés | szolgáló berendezés |
| szolgálóterület | szolgáló terület |
| . verb in word | vagyonbátorság | vagyon bátorság |
| közvéleményvárta | közvélemény várta |
| népszerűségretesz | népszerűségre tesz |
| testvérvoltod | testvér voltod |
| törvénykönyvszóló | törvénykönyv szóló |
| . adverb in word | professzortavaly | professzor tavaly |
. foreign words combination | marketingkoffer | eladó táskája |
| profitdauer | profit dauer |
| modemanschluss | modem anschluss |
| internetanschluss | internet anschluss |
| motoröl | motor öl |
| korrektorstift | korrektor stift |
| kreditvolumen | kredit volumen |
| luftfilter | luft filter |
| poruszony | por uszony |
| projektiga | projekt iga |
| labdakosz | labda kosz |
| marketingchef | marketing chef |
| patentblatt | patent blatt |
| patentformula | patent formula |
| traktatan | trakta tan |
| intercitytrafik | intercity trafik |
| projektstandard | projekt standard |
| restaurantdirektor | restaurant direktor |
| telefonanschluss | telefon anschluss |
. foreign word building | patriarchalista | patriarcha lista |
| patriarchaliter | patriarcha liter |
| receptima | recept ima |
| sumergida | sumer gida |
| provincialibus | provincia libus |
| souvenirslag | souvenir slag |
| temperamenta | tempera menta |
abbreviation accepted as word | szobamenny | szobamennyezet |
| tananyagfej | tananyagfejlesztés |
| képviselőtár | képviselőtárs |
| képviselőtest | képviselőtestület |
| sportcent | sportcentrum |
| szakfolyó | szakfolyóirat |
| szakfőtan | szakfőtanácsos |
| transznaci | transznacionális |
| történelemtan | történelemtanár |
| villanyszám | villanyszámla |
| vállvezetés | vállalatvezetés |
| vasaláskönny | vasaláskönnyítő |
repeated the same word or parts of it | munkajogjog | munkajog |
| lakóházház | lakóház |
| lélekjeljelenlét | lélekjelenlét |
| szerepepe | szerepe |
| árárarány | árarány |
| szamárkórókóró | szamárkóró |
| számszámláló | számláló |
| vadvadászat | vadászat |
| vasvasárnap | vasárnap |
| ásványvízvíz | ásványvíz |
| ruhafogasfogas | ruhafogas |
| sárgarézréz | sárgaréz |
| varázsitalital | varázsital |
| jogjogbiztonság | jogbiztonság |
| szemszemélyiség | személyiség |
| szolszolgáltatás | szolgáltatás |
| teremteremterem | terem |
| továbbképzésképzés | továbbképzés |
| senseless word | meggykolonc | meggy kolonc, |
| könyvtárnyári | könyvtár nyári |
| könyvtárállami | könyvtár állami |
| központhátsó | központ hátsó |
| libavárakozó | liba várakozó |
| menedékhold | menedék hold |
| nyelvbotolás | nyelvbotlás |
| panelbíróság | panel bíróság |
| partinövény | parti növény |
| városcsapat | város csapat |
| véleményvita | vélemény vita |
| tanártojás | tanár tojás |
| prózavakond | próza vakond |
| vezetéknévnap | vezetéknév nap |
| parkettördögölés | parkett ördög ölés |
| patthelyzetvégül | patthelyzet végül |
| ritkaföldfémgránát | ritka föld fém gránát |
| tehéntermesztés | tehéntenyésztés |
| kedvgyönyörködés | kedv gyönyörködés |
| mámorszenvedély | mámor szenvedély |
| méretreflexelem | méretre flexelem |
| osztrigatermesztés | osztrigatenyésztés |
| virágtenyésztés | virágtermesztés |
| pályaalkalmatosság | pályaalkalmasság |
| robbantásértelmi | robbantás értelmi |
| savbázisegyensúly | sav-bázisegyensúly |
| sorszálhasogató | hajszálhasogató |
| telefonnövekedés | telefonállomány-növekedés |
| telefonminiszter | távközlési miniszter |
. missing connecting character | vízló | víziló |
| kórházdolgozó | kórházi dolgozó |
| nemzetkormány | nemzeti kormány |
| vízbicikli | vízibicikli |
| távollétdíj | távolléti díj |
| szövetségkapitány | szövetségi kapitány |
| . missing characters | pénzomlás | pénzromlás |
| szegcsont | szegycsont |
| redőkapitány | rendőrkapitány |
| regeráció | regeneráció |
| kilátástan | kilátástalan |
| parancsokság | parancsnokság |
| pehelykönny | pehelykönnyű |
| saturáció | szaturáció |
| sebatlasz | zsebatlasz |
| sebmetszés | zsebmetszés |
| sortkocsi | sportkocsi |
| szakkönny | szakkönyv |
| szaktálca | szaktárca |
| szárügyvéd | sztárügyvéd |
| sülcsirke | sültcsirke |
| tenisztár | teniszsztár |
| táncfolyam | tánctanfolyam |
| válságdíj | váltságdíj |
| rendellenség | rendellenesség |
| rendfelosztás | rendfeloszlatás |
| salaktanító | salaktalanító |
| szakkiáltás | szakkiállítás |
| szervormány | szervo kormány |
| szervszivattyú | szervoszivattyú |
| számtanulás | számtantanulás |
| sülhússzaft | sülthússzaft |
| püspöküveg | püspöksüveg |
| agyarország | Magyarország |
| koponyasokaság | koponya sokaság |
| körfigyelem | kör figyelem |
| lomtörténet | irodalomtörténet |
| lomtudomány | irodalomtudomány |
| mandulajárvány | mandulagyulladás-járvány |
| masszahozam | biomasszahozam |
| mezalkotmány | nemezalkotmány |
| munkabeszélés | munkamegbeszélés |
| munkaválasz | munkaválasztás |
| segítőtár | segítőtárs |
| sejtburján | sejtburjánzás |
| szaknyugat | északnyugat |
| szerforrás | lőszerforrás |
| szergazda | rendszergazda |
| telőanyag | szigetelőanyag |
| torszárny | kolostorszárny |
| torszülött | torzszülött |
| tókilincs | ajtókilincs |
| vényalkotó | törvényalkotó |
| sortminiszter | sportminiszter |
| szettörvény | természettörvény |
| szárnyitogató | szárnynyitogató |
| tanhallgató | orvostanhallgató |
| torkerékpár | motorkerékpár |
| tornahálózat | csatornahálózat |
| tornanyílás | csatornanyílás |
| torokköszörű | torokköszörülés |
| tranzitivás | tranzitivitás |
| társzövetség | társszövetség |
| téttechnika | műtéttechnika |
| világgazság | világgazdaság |
| vállaltvezetés | vállalatvezetés |
| vállaltcsoport | vállalatcsoport |
| vénytelepítés | növénytelepítés |
| vénytársaság | részvénytársaság |
| vényvédelem | növényvédelem |
| vényalkotás | törvényalkotás |
| állképesség | állóképesség |
| stewardes | stewardess |
| szabálytan | szabálytalan |
| számtanár | számtantanár |
| színvonat | színvonalat |
| szöveganya | szöveganyag |
| szövegmez | szövegmező |
| tárasztal | táraasztal |
| versenyhe | versenyhelyzet |
| vámörvény | vámtörvény |
| várparancs | várparancsnok |
| állagjegy | állagjegyzék |
| rendszervezés | rendszerszervezés |
| szeméremdob | szeméremdomb |
| tőberendezés | vetítőberendezés |
| viselőcsoport | képviselőcsoport |
| viselőtestület | képviselőtestület |
| városparancs | városparancsnok |
| lójáratgyulladás | hallójáratgyulladás |
| ruházásösztönzés | beruházásösztönzés |
| résszolgáltatás | részszolgáltatás |
| szervezetbűnözés | szervezett bűnözés |
| szálodarobbantás | szállodarobbantás |
| térszalagszakadás | térdszalagszakadás |
| ismeretfurdalás | lelkiismeretfurdalás |
| külügymisztérium | külügyminisztérium |
| lomszolgáltatás | tartalomszolgáltatás |
| teljesítményomlás | teljesítményromlás |
| . mixed up characters | modorolaj | motorolaj |
| nyalászáró | nyílászáró |
| nyelvvizsla | nyelvvizsga |
| szagüzlet | szaküzlet |
| modernlámpa | modemlámpa |
| ultramodem | ultramodern |
| redőtiszt | rendőrtiszt |
| sejtreszelék, lajtreszelék | sajtreszelék |
| lápaernyő, lámaernyő | lámpaernyő |
| pofisíző | profisíző |
| nyomnövény | gyomnövény |
| költségverés | költségvetés |
| munkaagyi | munkaügyi |
| magközelítés | megközelítés |
| magnyilvánulás | megnyilvánulás |
| nyomtatvény | nyomtatvány |
| sudárdózis | sugárdózis |
| tanalmozó | tartalmazó |
| tanácsölés | tanácsülés |
| terepülés | település |
| tormászás | tornászás |
| tűréshatás | tűréshatár |
| várlázító | vérlázító |
| városszáli | városszéli |
| ácsingázó | ácsingózó |
| sometológus | sumerológus |
| sortávokság | sortávolság |
| szagdolgozat | szakdolgozat |
| szagszervezet | szakszervezet |
| szagtekintély | szaktekintély |
| szagterület | szakterület |
| szagértelem | szakértelem |
| szerencsedió | szerecsendió |
| szobaforgás | szóban forgás |
| szolgatátás | szolgáltatás |
| szolgálattátás | szolgáltatás |
| szolágáltatás | szolgáltatás |
| terratórium | territórium |
| testelöltés | testet-öltés |
| tromfosztás | trónfosztás |
| trutyimutyi | tutyimutyi |
| tárvénykönyv | törvénykönyv |
| téldolgozás | feldolgozás |
| világholnap | világhonlap |
| várásközpont | városközpont |
| színvonuló | színvonalú |
| várómarha | vágómarha |
| árnyokoló | árnyékoló |
| részlehajlás | részrehajlás |
| rózsakiáltás | rózsakiállítás |
| tárriogatás | támogatás |
| válaszoltár | válaszoltál |
| válaszoltás | válaszoltál |
| várveregetés | vállveregetés |
| vásároldató | vásárolgató |
| végbéltussolás | végbéltusolás |
| vényközpont | rendezvényközpont |
| zavaradottság | zavarodottság |
| zökkenőmentés | zökkenőmentes |
| államlapítás | államalapítás |
| államvizsla | államvizsga |
| átadásvétel | adásvétel |
| kormaghatározás | kormeghatározás |
| láncdalfesztivál | táncdalfesztivál |
| nyomőskülönbség | nyomáskülönbség |
| nyoszolyaasszony | nyoszolyóasszony |
| rációfrekvencia | rádiófrekvencia |
| ráncdalfesztivál | táncdalfesztivál |
| szerencsemosdatás | szerecsenmosdatás |
| szoltárfordítás | zsoltárfordítás |
| magkülönböztetés | megkülönböztetés |
| menteteljesítmény | menetteljesítmény |
| szemvényvesztés | szemfényvesztés |
| szériafelszeretés | szériafelszerelés |
| . plural in compund word | zsernyákokság | zsernyákság |
| munkásokosztály | munkásosztály |
| tárgyalásokalku | tárgyalások alku |
| . added character(s) | köbvetkező | következő |
| könyvhullatás | könnyhullatás |
| következező | következő |
| piknikkelés | piknikelés |
| piktorgramm | piktogramm |
| szarvsasi | szarvasi |
| szerevezés | szervezés |
| szerszett | szerzett |
| szintfolt | színfolt |
| állormány | állomány |
| pártaállami | pártállami |
| rendelkezdés | rendelkezés |
| rendelékezett | rendelkezett |
| szaggatótan | szaggatóan |
| szervezetés | szervezés |
| részgálic | rézgálic |
| rétorfika | retorika |
| tartárjárás | tatárjárás |
| transzakció | tranzakció |
| vállalakozás | vállalkozás |
| váltsághelyzet | válsághelyzet |
| vényasszony | vénasszony |
| zavartartás | zavartatás |
| zsilipellés | zsilipelés |
| sportroló | sportoló |
| toppmodell | topmodell |
| topplista | toplista |
| szerverezet | szervezet |
| szervevezés | szervezés |
| szolgaáltatás | szolgáltatás |
| választátás | választás |
| váltsághozó | válsághozó |
| hulladéktárroló | hulladéktároló |
| lakászszövetkezet | lakásszövetkezet |
| légyszennyezettség | légszennyezettség |
| légykondicionáló | légkondicionáló |
| magánygyűjtemény | magángyűjtemény |
| részvénytársasság | részvénytársaság |
| izzadtsággyöngy | izzadsággyöngy |
| telefontközpont | telefonközpont |
| . accent error | ruhalázító | ruhalazító |
| passzívitás | passzivitás |
| rececsapat | récecsapat |
| partfogas | pártfogás |
| légtérsertés | légtérsértés |
| borruha | bőrruha |
| kürtöskalács | kürtőskalács |
| nacifelvonulás | náci felvonulás |
| partkarrier | pártkarrier |
| szakállás | szakállas |
| szelepszar | szelepszár |
| szobajövő | szóbajövő |
| szörnyírás | szőrnyírás |
| tettrekesz | tettrekész |
| pánszlavizmus | pánszlávizmus |
| szintenyészet | színtenyészet |
| teveriporter | tévériporter |
| tizenegyesrugó | tizenegyesrúgó |
| szervízellátás | szervizellátás |
| szervízvezető | szervizvezető |
| partkongresszus | pártkongresszus |
| rendorgyilkosság | rendőrgyilkosság |
| tevefilmsorozat | tévéfilmsorozat |
| kilóméterhosszú | kilométerhosszú |
| mikróhullámkibocsátás | mikrohullámkibocsátás |
artificially created 'funny' words | kocsonyatanú | koronatanú |
| ránctalpas | lánctalpas |
| bőrfűrész | körfűrész |
| körömfont | körmönfont |
| koncertdongó | koncert dongó |
| nyakleveskocka | nyakleves kocka |
| oroszlánszívó | oroszlánszívű |
| sráckarika | frászkarika |
| szájbeszéd | szóbeszéd |
| teszthalál | tetszhalál |
| pártfordulás | pálfordulás |
| rádiócsőtészta | rádiócső tészta |
| tapasznyalás | tapasztalás |
| tollázgatás | tollászkodás |
| trendszvetter | trendszetter |
| trónvitorlás | trónbitorlás |
| sínpatikus | szimpatikus |
| teflonszám | telefonszám |
| sajtóorgazmus | sajtóorgánum |
| stricimackó | micimackó |
| stúdióraport | stúdióriport |
| sírószövetség | írószövetség |
| trónfoszlás | trónfosztás |
| tényfékezés | fényképezés |
| információhagyma | információ hagyma |
| leányanyacsavar | leány anyacsavar |
| holnapfogyatkozás | hol napfogyatkozás |
| szaksegédmunkás | szakmunkás segédmunkás |
misspelled conjugated words | kompreszort | kompresszort |
| kosármecset | kosármeccset |
| oxidációfóka | oxidációfok |
| pillanatfal | pillanattal |
| sorszamat | sorszámát |
| szakképzet | szakképzett |
| szegyelem | szégyellem |
| tekercsér | tekercsért |
| területcin | területein |
| testsulyom | testsúlyom |
| tulajdonna | tulajdona |
| tárgyakna | tárgyaknak |
| térfogató | térfogatú |
| tévedésér | tévedésért |
| programjatt | programját |
| szerzeteség | szerzetesség |
| szitáláshon | szitáláshoz |
| színhelyjel | színhellyel |
| többszöröség | többszörösét |
| éghajlathon | éghajlaton |
| süteményheg | süteményhez |
| területetén | területén |
| otthonteremtesi | otthonteremtési |
| rosszindulatbúb | rosszindulatúbb |
The estimated count of erroneously generated words for Hungarian and German is round 4.9 Milliard words. This, because the not compounded word count is approximately 70 thousand words, this makes 70 thousand x 70 thousand combined words = 4.9 Mrd, out of them approximately one million words are correct and used words, the rest are errors. The one million used words is the result of the analysis of the languages using generated corpuses. This is a very rough estimation, the real error count is presumably higher.
The checking of a 30 million word size corpus proved, that the words, that are automatically created compound words, contain approximately 10% wrong words of the above types. Automatic word compounding is a quick a dirty mechanizm, that is not capable to create quality word lists and therefore quality spell checking. Manually created word lists, if carefully created, tend to contain less than 0.5% wrong words.
Memory size and speed considerations
Studies in the 1990's years mention that it is necessary to keep the spell checker word lists small in order to keep search times in acceptable limits, and also to save computer storage. If a word list contains 800 thousand words, each 14 characters long, that takes 16 MB store (800 thousand * 20). I assumed for each word 1 character and 4 flags. Including the slash then each word needs 20 characters. The search times are also below 1/2 second for each word, which is acceptable.
For embedded applications, for example cell phones it does make sense to keep a core word list of say 300 thousand words, which gives acceptable spell check quality for simple everyday texts and conversations.