साठ लाख शब्दांपेक्षा जास्त शब्दांची फाईल खाली दिलेल्या दुव्यावर उपलब्ध करून दिली आहे. यात शुद्ध / अशुद्ध असे सर्वच शब्द आहेत.
datameetgeobk.s3.amazonaws.com/hunspell/ai4b/to_ai4b.txt
भाषेच्या अभ्यासकांना याचा उपयोग होऊ शकेल कारण प्रत्येक शब्दाबरोबर त्याची वारंवारता देखील दिली आहे. त्यावरून विविध निष्कर्ष काढता येतात. उदाहरणार्थ खाली दिलेल्या डाटावरून "करणे" हे क्रियापद मराठीत "असणे" या क्रियापदानंतर सर्वात जास्त वापरले जाते असे म्हणता येईल. (करण्यात, केला, केली, केले / आहे, आहेत, होते, होती, होता)
19798096 आहे
10021696 आणि
9236793 या
4859511 आहेत
4605454 ना
4288908 हे
3955666 यांनी
3615407 तर
3329200 का
3257382 ते
2944101 होते
2941239 एक
2905625 केली
2833018 व
2806197 हा
2469536 करण्यात
2449902 असे
2165567 केला
2095380 केले
2049289 होती
2034432 की
1951079 पण
1910578 होता
1783648 त्यामुळे
1761337 आता
1746278 मात्र
1699462 आले
1600933 त्या
हे शब्द नेटवरील विविध स्त्रोतांमधून जमा केले आहेत त्यामुळे त्यांची विश्वासार्हता किती ही एक शंका आहे. पण मी ही फाईल मोठ्या प्रमाणावर वापरतो. इतरांनाही त्याचा उपयोग होईल असे मला वाटते.