०३ डिसेंबर, २०२२

वापरात नसलेले शब्द

जे शब्द स्पेलचेकच्या डेटाबेसमध्ये नाही घेतले तरी चालतील अशा सुमारे पाच हजार शब्दांची यादी तयार केली आहे.

https://github.com/shantanuo/Spell-Checker/blob/master/exclude_words.txt

शब्दकोशात असले तरी हे शब्द वापरात नाहीत म्हणून स्पेलचेकमधूनही काढले आहेत. वापरात आहेत की नाही हे ठरविण्याचा एकमेव निकष म्हणजे गूगलमध्ये तो शब्द किती वेळा आला आहे ते पाहिले. ० ते १०० अशा स्केलमध्ये शून्य ते तीस / चाळीस पर्यंतची मजल गाठू न शकलेले हे शब्द काढले तर डेटाबेसचा आकार लहान ठेवता येईल असे मला वाटते.