०८ नोव्हेंबर, २०२१

गाळलेल्या जागा भरा!

काही वेळा जुन्या पुस्तकातील दोन – चार शब्द पुसले गेलेले असतात. अशी पुस्तके स्कॅन केल्यावर असे शब्द काय असतील हे शोधणे कठीण होऊन बसते. 

https://mr.wikisource.org/wiki/%E0%A4%AA%E0%A4%BE%E0%A4%A8:Arth_shastrachi_multatve_cropped.pdf/81

दोन शब्दांमधील गाळलेले शब्द शोधून काढण्यासाठी ही क्वेरी वापरता येते.

# /root/.cargo/bin/rg  -No "(दरवर्षी (\w+ ){3}पेठ)" mr_dedup.txt

याचा अर्थ दरवर्षी या शब्दानंतर पुसले गेलेले ३ शब्द शोधायचे आहेत. पण त्यानंतर येणारा शब्द हा "पेठ” असा असला पाहिजे. या निकषात बसणाऱ्या दोन ओळी मिळाल्या...

संस्थेतर्फे दरवर्षी भरवली जाणारी ग्राहक पेठ यावर्षी शुक्रवार दि. १९ ऑक्टोबर २०१८ ते रविवार दि. २८ ऑक्टोबर २०१८ या कालावधीत संपन्न होत आहे...

वृद्ध आबासाहेबांनाही या मुलाच्या विलक्षण बुद्धिमत्तेबद्दल कौतुक होतं. दरवर्षी त्यांचा टांगा नारायण पेठेतल्या त्या जिन्याखालच्या खोलीसमोर थांबे - ज्ञानाची उपासना करणार्‍या या मुलाला गणेशोत्सवाच्या जेवणाचं समक्ष आमंत्रण करण्यासाठी.

"भरवली जाणारी ग्राहक" किंवा "त्यांचा टांगा नारायण" असे दोन पर्याय  मिळतात त्यातील. योग्य पर्याय संदर्भाने निवडता येतो. 

यासाठी ऑस्कर नावाचा पब्लिक डेटा वापरला आहे. 

https://oscar-public.huma-num.fr/shuff-dedup/mr/

आणि ग्रेप क्वेरी न वापरता रिपग्रेप कमांड वापरली कारण त्यात युनिकोड सपोर्ट आहे. रस्ट ही एक पायथॉन सारखी  प्रोग्रॅमिंग लँग्वेज असून ती देखील यासाठी आवश्यक आहे.