Все слова были перенесены с сайта wordsonline.ru путем брут-форса его словаря (используя маски) Можно было сделать все в сто раз легче, но я решил по приколу написать именно так, чтобы протестировать некоторые функции requests.
Все нужные скрипты могут быть найдены в папке scripts.
-
words.txt - содержит всевозможные русские слова без падежей. (более 150000 слов) (Update: надо будет обновить и добавить слова с 3 буквами или меньше, забыл пушнуть)
-
words_dictionary.json - словарь, сделанный из words.txt
-
words_names.txt - содержит всевозможные русские имена. (> 700); Содержит отдельные ответвления.
-
words_names.json - words_names.txt -> .json
-
words_surnames.txt - содержит всевозможные русские фамилии. (> 800000)
-
words_surnames.json - words_surnames.txt -> .json Кстати, насчет этого файла есть странность - он весит меньше чем в кодировкe cp-1251.
-
Слова в падежах (words_cases) были взяты отсюда, были улучшены и переведены в .json. https://github.com/danakt/russian-words (> 1500000)
Просто киньте мне pull request, и недостающее слово будет добавлено.
Just use this command (in /bin)
sort -u old-file.txt -o new-file.txt
Нахуй авторские права. Все что здесь есть может использоваться вами как угодно.
Но если подьедут федералы, пеняйте на себя, мы не пересекались, лол.
All these words were brought from wordsonline.ru I found a POST method with using of burp suite, and then just brute-forced all words with help of the mask.
All needed scripts to repeat my steps can be found in scripts folder.
Then I just translated them into .json, with using of json_dictionary.py and json_list.py (not yet)
All files are divided in sub-directories with their encoding.
-
words.txt contains all words (without cases) (>150000)
-
words_dictionary.json is the same as words.txt, just translated into words.txt
-
words_names - contains all names on Russian (copy-paste from 10 sites) (>700)
-
words_surnames - contains all surnames on Russian (>800000)
-
words_cases, as words_surnames were brought and improved from (> 1500000) https://github.com/danakt/russian-words.
Feel free to send a pull request, and it will be fixed.
Just use sort -u old-file.txt -o new-file.txt
Fuck copyright issues! You can use it anywhere you want. I don't honestly care.