Wikisłownik:Zadania dla botów

Tutaj możesz umieścić dowolne zadanie dla bota. Któryś z właścicieli botów z pewnością zainteresuje się Twoim problemem i pomoże go rozwiązać.

Zobacz też: archiwum.

Zadania stałeEdytuj

zadania boty
Generowanie list haseł z błędami oraz informacyjnych (spis) AlkamidBot
Aktualizowanie statystyk oraz stron promocyjnych: Presskit, Dlaczego Wikisłownik (podstrony bota)
Wspomaganie dodawania nowych języków wg przyjętej struktury (zgłoszenia)
Obsługa projektu Wikisłownik:Dodawanie przykładów
Usuwanie zerwanych linków do nieistniejących plików (opis) CommonsDelinker
Generowane co miesiąc zestawienie aktywnych wikisłownikarzy (top 600) MalarzBOT
Sprzątanie kodu w przestrzeni głównej (opislisty) Olafbot
Uzupełnianie i sortowanie {{podobne}} i {{podobne2}} (opismapowanie znakówproblemy)
Dodawanie wyrazów pokrewnych w hasłach (opis)
Aktualizacja rankingów braków: słów według wystąpień w innych wikisłownikach, tłumaczeń, angielskie (opis)
Wspomaganie tworzenia haseł (opisprojekt AlkamidBot/sjpszkice)
Import wymowy angielskiej (opis)
Generowanie wymowy polskiej (opislista robocza)
Aktualizowanie indeksu hiszpańskich form czasownikowych PBbot
Generowanie listy błędów w nagłówkach haseł
Śledzenie transkluzji {{sjp.pl}} (lista)
Generowanie listy potencjalnych błędów w polu wyrazów pokrewnych w hasłach esperanto (lista)
Odświeżanie stron („purge”) i liczników: strona główna, słowniki, kategorie języków
Aktualizowanie listy haseł potrzebnych na OZ ({{Potrzebne}})
Sprawdzanie odmiany polskich nazwisk (lista)
Wyszukiwanie brakujących sekcji polskich na podstawie SGJP (lista)
Generowanie spisu artykułów w polskojęzycznej Wikipedii, do których linkujemy w hasłach polskich poprzez szablon {{wikipedia}}, lecz brak linku zwrotnego tamże (lista)
Generowanie spisu polskich haseł, które nie mają uzupełnionej etymologii w Wikidanych (lista)
Obsługa i generowanie list na serwerze narzędziowym
Generowanie indeksów tematycznych na podstawie szablonów skrótów (projekt Wikisłownikarz:Beau.bot/indeksy)
Wstawianie szablonów audio, usuwanie zerwanych linków (czarna listadługie)
Śledzenie nieprawidłowo kategoryzujących szablonów gwar/regionalizmów (lista)
Generowanie list haseł polskich bez nagrania wymowy (serwer narzędziowy)
Generowanie zestawienia selflinków, które prawdopodobnie zostały niesłusznie pogrubione (lista)
Generowanie zestawienia nieuźródłowionych haseł ukraińskich (lista)
Generowanie zestawienia haseł, którym w etymologii prawdopodobie przypisano łaciński bezokolicznik (lista)

ZleceniaEdytuj

Odmiana katalońska po raz drugiEdytuj

Czy istnieje sposób, aby automatycznie (np. botem) dodać odmiany rzeczowników i przymiotników do haseł katalońskich z tej strony (niestety czasami ta strona nie działa, coś z DNSem, przeważnie trzeba poczekać kilka minut lub godzin). Na przykład carismàtic stąd [1] itp. Nostrix (dyskusja) 21:27, 6 sty 2018 (CET)

Skrypt do uzupełnienia odmiany rzeczowników jest już napisany, uruchomię go, jeśli nie będzie sprzeciwu. Skrypt do uzupełnienia odmiany przymiotników jest w drodze. PiotrekDDYSKUSJA 21:29, 6 sty 2018 (CET)
Odmiana rzeczowników uzupełniona. Ominąłem nazwy własne (wszystkie słowa zaczynające się wielką literą), słowa niewystępujące w źródle, izmy, a później również te z więcej niż jednym nagłówkiem w definicjach i te z - lub · w nazwie. Przymiotnikami zajmę się w najbliższym czasie®. PiotrekDDYSKUSJA 23:15, 6 sty 2018 (CET)

A licencja tej strony pozwala na bezpośrednie masowe kopiowanie? Nie znam katalońskiego więc nie umiem sam na to odpowiedzieć. KaMan (dyskusja) 09:58, 7 sty 2018 (CET)

@KaMan: Używaliśmy tylko form liczby mnogiej, niczego innego, i to podając źródło w opisie. Te formy same w sobie nie są obkopyrajtowane, są częścią naturalnie powstałego języka uwarunkowaną jego zasadami gramatycznymi, równie dobrze moglibyśmy posadzić przed komputerem Katalończyka i prosić go skryptem o szybkie podawanie form na zasadzie, że skrypt wyświetla mu liczbę pojedynczą, on podaje mnogą, skrypt dodaje do hasła i tak po kolei. Albo napisać program generujący te formy na podstawie podręcznika gramatyki. Efekt w tych trzech przypadkach byłby dokładnie taki sam. Pozdrawiam, PiotrekDDYSKUSJA 11:42, 7 sty 2018 (CET)
czyli możemy botem przekopiować odmiany ze słownika {{SGJPonline}} bo "formy nie są obkopyrajtowane"? Według mnie nie. Kopiowanie baz danych również podlega prawu autorskiemu nawet jeżeli komórki tej bazy danych są "oczywiste" KaMan (dyskusja) 15:16, 7 sty 2018 (CET)
Okej, więc będę kopiował ręcznie ;). Nostrix (dyskusja) 17:32, 7 sty 2018 (CET)
Nie wiem, o jaką bazę danych chodzi; jam żadnej nie widział. Widziałem tylko stronę internetową podającą formy. Skąd oni je podają, nie wiem. Może są generowane w locie, a mają tylko listę istniejących rzeczowników. Do tego baza nie jest potrzebna.
Ale dobrze. Aby uniknąć tego typu problemów, przy przyszłych akcjach masowego uzupełniania form wynajmę na libijskim lub innym akfrykańskim targu niewolników jakiegoś złapanego Katalończyka (czy mówiącego tym językiem, którego hasła wtedy będziemy uzupełniać), każę go postawić przed terminalem z uruchomionym odpowiednim skryptem i niech podaje z głowy formy :). Widoczny efekt będzie dokładnie ten sam, ale nie będzie problemów z prawami autorskimi. (Oczywiście żartuję, ukazując absurdalność sytuacji, nie ma potrzeby dzwonienia po służby, drodzy czytający). PiotrekDDYSKUSJA 19:07, 7 sty 2018 (CET)
https://prawokultury.pl/kurs/bazy-danych KaMan (dyskusja) 19:26, 7 sty 2018 (CET)
@PiotrekD Och, w 2015 podobnie mi się tłumaczył pewien autor strony, gdzie zerżnął między innymi całą polską odmianę z Wikisłownika bez podania źródeł. Że to przecież nie od nas, bo odmiana jest wszędzie taka sama. Wskazałem mu konkretny przypadek, gdzie na Wikisłowniku była literówka i u niego też, a w żadnym innym internetowym źródle nie. W razie potrzeby mam jeszcze ze dwie inne takie. Po powołaniu się na ustawę o ochronie baz danych, a konkretnie art. 11, pkt 1.4 o konieczności wypłacenia korzyści z tytułu naruszenia praw do bazy, której wszak jestem współautorem, w końcu skapitulował. O ile wiem, był też proces sądowy, w którym autor tabelki rekordów sportowych analogicznie udowodnił, że inne wydawnictwo przepisało ten zbiór danych właśnie od niego - w spisie były umieszczone specjalnie drobne literówki. Jak chcesz to najmij Katalończyka, ale jak skopiujesz dosłownie, to da się to stwierdzić. O ile oczywiście komukolwiek się będzie chciało. Olaf (dyskusja) 19:44, 12 sty 2018 (CET)
@Olaf Idąc tą drogą, korzystanie z jakichkolwiek współczesnych papierowych słowników jest również bardzo ryzykowne: w końcu też mogą zawierać jakieś krytyczne literówki, których nie wyłapiesz. A może uważasz, że należy korzystać tylko ze słowników PD, czyli takich, których autorzy zmarli przed 1948 rokiem?
Z drugiej strony, ochronie podlegają nie wszystkie bazy, a tylko te, które maja cechy utworu (twórczy charakter). Nie jestem pewien, ale mam poważne wątpliwości, czy prosta słownikowa baza odmian spełnia ten warunek (tzn. czy ma jakieś cechy twórcze, których np. nie mają inne, podobne bazy). Dodatkowo, o ile pamiętam, jednym z istotnych warunków uznania bazy za chronioną są poniesione przez właściciela bazy nakładu inwestycyjne (czytaj: poniesione koszty z myślą o przyszłych zyskach). Czy aby na pewno baza o której mowa została utworzona z myślą o zyskach? Można ją kupić? Albo dostęp do niej? Takie moje (być może trochę spóźnione) 0.03 PLN zewnętrznego obserwatora. Ankry (dyskusja) 18:14, 5 lut 2018 (CET)
@Ankry Ochronie podlegają wszystkie bazy, nie muszą mieć cech utworu, to ustawa niezależna od prawa autorskiego. Oczywiście granica jest płynna i pewnie nikt by i tak nie zauważył, ale nie możemy oficjalnie uruchomić bota żeby zerżnął jakiś słownik. Jeszcze możesz poprosić autora o zgodę, wysłaną na permissions-pl@wikimedia.org Zgoda musi zawierać informację, jakiej strony dotyczy i że autor udostępnia jej treść na licencji CC-BY-SA 3.0. Zob. w:Wikipedia:OTRS. Kilka zgód już tak się kiedyś udało zdobyć (Wikisłownik:Zgody na wykorzystanie#Uzyskane zgody potwierdzone przez OTRS). Olaf (dyskusja) 23:56, 14 lut 2018 (CET)
@Olaf licencja CC-BY-SA 3.0. dotyczy utworów, a więc czegoś, co jest chronione prawem autorskim. Jeśli uważasz, że w przypadku niechronionych prawem autorskim baz danych potrzebna jest zgoda, to musiałaby to być zgoda o zupełnie innej treści. Natomiast, jeśli chodzi o ustawę z 2001 o ochronie baz danych, to nie jest prawdą, że chroni ona wszystkie bazy: chronione są tylko te, gdzie poniesiono nakłady inwestycyjne (czyli musi być w związku z tą bazą powadzona działalność nastawiona na zysk; nie wszystkie koszty są inwestycją). Ankry (dyskusja) 08:05, 15 lut 2018 (CET)
Jeszcze odnośnie tego akademickiego sporu: zastanawiam się, czy pobranie promilu odmian z bazy danych, która sama w sobie zawiera więcej informacji (np. dzielenie wyrazów itp.) i "wtopienie" tego do naszej bazy, która sama w sobie jest dużo większa (jako całość) i w samych rekordach (hasłach) zawiera dodatkowe, nie pobrane z tej bazy informacje, jest naruszeniem wspomnianej ustawy. Innymi słowy, w Wikisłowniku jest blisko 700 tys. rekordów, w ca.oslin.org - nie wiem, bo nie podają tego, ale na oko ok. 100 tys. słów katalońskich. My pobieramy z ich bazy ok. 1 tys. danych, wyłącznie odmian i dodajemy do naszej bazy, mieszając to z innymi danymi w naszych rekordach. Czy rzeczywiście jest to naruszenie ustawy i czy zakaz kopiowania wynikający z niej nie dotyczy przypadkiem kopiowania bazy 1:1 i przedstawiania jej jako własnej? Nostrix (dyskusja) 08:52, 15 lut 2018 (CET)
  • Może po prostu trzeba było zrobić tak: bot ładuje dziennie tylko 10 odmian bez podania źródła, czyli tak jak ja robię od tygodni ;). Nostrix (dyskusja) 20:11, 7 sty 2018 (CET)

Formy deprecjatywneEdytuj

Od dłuższego czasu chodził mi po głowie pomysł uzupełnienia botem haseł o polskich słowach rodzaju męskoosobowego o formy deprecjatywne, któreśmy mieli podawać, a które wcześniej podawane nie były, więc ich nie ma zwykle. Są one tworzone całkowicie regularnie, poprzez dodanie odpowiedniej końcówki:

  • „-i” dla zakończonych na „k” i „g”,
  • „-e” dla zakończonych miękką lub stwardniałą spółgłoską,
  • „-y” dla pozostałych

do tematu odmiany rzeczownika, który można uzyskać poprzez wzięcie formy dopełniacza i odcięcie „-a”. Co o tym sądzicie? PiotrekDDYSKUSJA 12:16, 12 sty 2018 (CET)

Rzuć przykładem lub przykładami :) Nostrix (dyskusja) 12:19, 12 sty 2018 (CET)
@Nostrix: Kilka przykładów:
Pozdrawiam, PiotrekDDYSKUSJA 12:28, 12 sty 2018 (CET)
OK, dzięki. Jestem za oczywiście :). Nostrix (dyskusja) 13:34, 12 sty 2018 (CET)
Przykład z malarzem pokazuje, że nie zawsze jest to forma deprecjatywna. Jak więc bot miałby to automatycznie odróżniać i kiedy ma dodawać kwalifikator depr., a kiedy nie? Powyższe reguły mają też inne niedoróbki, na przykład rzeczownikiem męskoosobowym jest ksiądz i bot utworzyłby formę deprecjatywną ksiądze. Olaf (dyskusja) 14:35, 12 sty 2018 (CET)
@Olaf: Co do „malarze”: jest to forma niedeprecjatywna („ci malarze zrobili”) i deprecjatywna („te malarze zrobiły”) zarazem. Obie mogą być równe. Co do kwalifikatorów: ich już nie używamy w zwykłym polu liczby mnogiej, lecz – zgodnie z WS:Głosowania/formy niedeprecjatywne w odmianie – w oddzielnym polu na dole. Co do „księdze”: to jest rzeczownik o nieregularnej liczbie mnogiej, ale taka właśnie forma jest podawana przez SGJP i WSJP (ten drugi jako kwestionowana)[2][3]. Osobiście jednak ominąłbym przy botowaniu hasła z niestandardową liczbą mnogą. Pozdrawiam, PiotrekDDYSKUSJA 15:30, 12 sty 2018 (CET)
No właśnie podawana jest forma "księdze" a nie "ksiądze", jak wynikałoby z powyższych tych reguł. Trzeba by też te reguły doprecyzować (np. jak dokładnie na podstawie tytułu ustalić, czy na końcu jest "miękka lub stwardniała spółgłoska", jak odróżnić kiedy odmiana jest niestandardowa?). Wszystko jedno gdzie te kwalifikatory wpisujemy, tak czy inaczej bot musi odróżnić czy dana forma jest deprecjatywna, czy niedeprecjatywna, czy jednocześnie i taka i taka, bo w inny sposób wpisze to w kod strony, a sam nie jestem pewien czy potrafię to w każdym przypadku odróżnić. Pomysł nie jest zły, tylko nie widzę możliwości łatwego oprogramowania bota, żeby to robił automatycznie. Dałoby się pewnie to zrobić półautomatycznie, sprawdzając te formy przed lub po edycji, tylko nikomu zapewne nie będzie się chciało tego sprawdzać. To czego bym chciał uniknąć, to zmiana przez jakiegoś bota hurtem tysięcy polskich rzeczowników, z obietnicą, że ktoś to kiedyś sprawdzi. Ale gdyby ktoś był chętny do sprawdzenia listy przed edycją, to czemu by nie. Olaf (dyskusja) 19:24, 12 sty 2018 (CET)
@Olaf: Um, z powyższych reguł wynikałaby forma „księdze”; wspomniałem, że formy te tworzymy od tematu odmiany przypadków zależnych, który uzyskiwalibyśmy od formy dopełniacza liczby pojedynczej – „księdza”. Nie zmienia to faktu, że jest to sytuacja wyjątkowa, którą można byłoby ominąć, np. sprawdzając czy forma mianownika lm. jest utworzona jedną z następujących końcówek: -i, -owie, -e, -y. Jeśli nie jest, jest niestandardowa. (Choć o le się nie mylę, w innych sytuacjach mamy do czynienia z nieodmiennym bądź -a (przez połączenie z dawnym rzeczownikiem zbiorowym – księża, bracia – lub przeszłość jako nijakiego – książęta; o innych męskorzeczowych tego typu nie pamiętam)).
Jeśli chodzi o kwestię, czy forma jest deprecjatywna czy niedeprecjatywna, to zasady są następujące, w uproszczeniu, dla końcówek:
  • -y: Jeśli poprzedza ją „c”, jest niedeprecjatywna (temat odmiany kończy się na „c” lub „k”), w innych przypadkach deprecjatywna.
  • -i: Jeśli ją poprzedza „k” lub „i”, jest deprecjatywna, w innych przypadkach niedeprecjatywna;
  • -owie: Zawsze niedeprecjatywna.
  • -e: Zawsze deprecjatywna, w wielu przypadkach (ale nie wszystkich, zależne od konkretnego wyrazu, kwestie normatywne) również niedeprecjatywna.
Oczywiście powyższe dotyczą tylko mianownika (i wołacza), „-i” i „-y” w dopełniaczu wielu miękkotematowych to inna para kaloszy.
Swoją drogą – konieczne byłoby przed dodaniem deprecjatywnej sprawdzić, czy ona już nie znajduje się w polu standardowym.
Pozdrawiam, PiotrekDDYSKUSJA 20:25, 12 sty 2018 (CET)
a czy te formy nie powinny, per analogia do ostatniej fali zdrobnień, być dodawane tylko jeśli są w użyciu? czyli pomijane formy potencjalne? KaMan (dyskusja) 14:40, 12 sty 2018 (CET)
@KaMan: Sytuacja jak z formami wołacza u rzeczy, które zawsze podajemy, choć są bardzo rzadko używane. Inaczej niż w przypadku wspomnianych zdrobnień formy owe nie są oddzielnymi jednostkami leksykalnym i nie mają własnych haseł. Pozdrawiam, PiotrekDDYSKUSJA 15:34, 12 sty 2018 (CET)

Etymologia plusowa w przymiotnikach polskichEdytuj

Mamy w naszym słowniku wiele przymiotników polskich od nazw geograficznych (choć nie tylko) utworzonych po prostu poprzez dodanie do tematu odmiany rzeczownika sufiksu „-ski”. Planuję pouzupełniać w tych hasłach botem sekcję etymologii, wstawiając tam po prostu {{etymn|TEMAT|-ski}}. (Oczywiście będę musiał ominąć przymiotniki, które nie są takim prostym złożeniem, np. teksański, zachodniopomorski, odautorski i inne, oraz uwzględnić uproszczenia w stylu „ss” > „s” i „zs” > „s”). Wpisuję się tutaj dla jasności, a może też wysłuchania uwag czy sprzeciwów. PiotrekDDYSKUSJA 12:24, 19 paź 2020 (CEST)

  • @PiotrekD: Nie widzę przeciwwskazań, o ile tylko zmiana będzie półautomatyczna, tzn. ktoś będzie ręcznie wychwytywał przypadki, w których między tematem a przyrostkiem zachodzą zmiany bądź temat ulega np. skróceniu. Pozdrawiam, Maitake (dyskusja) 16:01, 19 paź 2020 (CEST)

Ruszyłem w końcu (po ponad połowie roku) z tym projektem. Na razie zająłem się najprostszą kombinacją, czyli przypadkami, gdzie przymiotnik to proste połączenie pisanego od małej litery rzeczownika, od którego pochodzi, i końcówki. Wygenerowałem listę, przejrzałem ją, pousuwałem z niej błędne przypadki i na jej podstawie uzupełniłem botem hasła. PiotrekDDYSKUSJA 15:24, 25 lip 2021 (CEST)

Istniejące hasła, w których brak sekcji ukraińskiejEdytuj

Chodzi o to by na podstawie tej strony przygotować ukraiński odpowiednik tej strony? Czyli chodzi o istniejące strony, w których nie ma sekcji ukraińskiej a według słowników internetowych powinna być. Ewentualnie chociaż na podstawie https://slovnyk.ua/index.php?s1=1&s2=0, chociaż na tej pierwszej stronie jest zdecydowanie większy zbiór słów. Chyba zlecenie cykliczne. KaMan (dyskusja) 13:10, 14 lis 2020 (CET)

Cały słownik SGJP (pobrany na dysku) można przeskanować w kilkanaście sekund, natomiast w tym samym czasie wyślę najwyżej kilka zapytań do tego ukraińskiego słownika online, po jednym na hasło (po krótkim czasie zapewne dostałbym bana). Tu znalazłem alternatywne projekty otwarte, m.in. VESUM i mphdict. Peter Bowman (dyskusja) 18:28, 14 lis 2020 (CET)
@Peter Bowman Rozumiem, nie umiem się niestety poruszać po githubie, nie wiem gdzie tam są bazy słów do przejrzenia. Można tam jakoś odczytać ogólną liczbę haseł? Jeśli liczba haseł jest rzędu 100-150 tysięcy to już jest warto po to sięgnąć. A może zestawienie względem sumy tych otwartych projektów? KaMan (dyskusja) 02:56, 15 lis 2020 (CET)
  • @KaMan: Nie wiem dokładnie, jaki jest cel tak akurat skonstruowanej listy, ale czy nie lepiej byłoby uzupełniać hasła ukraińskie według jakiejś listy frekwencyjnej, tzn. najpierw te najczęstsze wyrazy, które nie mają jeszcze haseł? (Trzeba by tylko znaleźć taką listę.) Istnieje już Ranking brakujących słów według wystąpień w innych wikisłownikach, czy on nie byłby lepszy? Zawiera tysiąc wyrazów, bazuje na istniejących hasłach w innych Wikisłownikach i jest codziennie aktualizowany; kolorowanie linków wskaże, które hasła już istnieją, ale bez sekcji ukraińskiej. Pozdrawiam, Maitake (dyskusja) 18:51, 14 lis 2020 (CET)
    @Maitake Cel takiej listy jest taki, że niebieskie linki wprowadzają w hasłach w błąd użytkowników, że hasło jest, a w rzeczywistości go nie ma. W dodatku tworzenie takich haseł jest z reguły proste, bo znaczenie tych haseł jest zwykle takie jak istniejącej już sekcji rosyjskiej czy białoruskiej (oczywiście trzeba to mimo wszystko sprawdzić w źródłach). Rzecz jasna lista frekwencyjna też by się przydała, ale na tej stronie ktoś już stworzył listę list frekwencyjnych dla różnych języków i widocznie dla ukraińskiego niczego dobrego na otwartej licencji nie znalazł. Z rankingu haseł w innych wikisłownikach już korzystam, m.in. dlatego tworzę hasła o literach ukraińskich, bo w tym rankingu były dość wysoko. KaMan (dyskusja) 02:56, 15 lis 2020 (CET)
  • @KaMan: Jeśli chodzi o mylące linki, to może warto by się postarać o domyślne włączenie dla wszystkich kolorowania linków, wtedy od razu każdy by wiedział, czy hasło istnieje, czy nie, bo linków niebieskich byłoby dużo mniej. Natomiast dla języka ukraińskiego listy frekwencyjne oczywiście istnieją, wymienia je np. ukraińska Wikipedia (Частотний словник), coś można znaleźć także w Internecie (Mova.info), choć dostęp do samych danych trzeba by najpierw rozgryźć i sprawdzić ich licencję (ale np. Indeks:Rosyjski - Najpopularniejsze słowa przekopiowano z portugalskiego Wikisłownika, gdzie jako źródło podano drukowany Частотный словарь современного русского литературного языка z 1963, pewnie nie udostępniony na wolnej licencji). Pozdrawiam, Maitake (dyskusja) 11:21, 15 lis 2020 (CET)
    @Maitake Kolorowanie linków oczywiście to przydatna rzecz, ale dla zwykłego użytkownika kolor nic nie mówi, nie ma legendy na stronach mówiącej jaki kolor linku co oznacza. Jak wchodzi w czerwony link to widzi komunikat, że hasło nie utworzone. A jak wchodzi w pokolorowany link (bo skąd ma wiedzieć, że inny kolor oznacza brak języka) to nie widzi komunikatu brak sekcji, ładuje mu się pierwsza z góry sekcja i dopiero na stronie szuka hasła ukraińskiego a tego nie ma. Zresztą nie wiem czy w widokach mobilnych skrypt do kolorowania sekcji działa, inne skrypty nie działają. Lista, o którą poprosiłem pomogłaby uniknąć sytuacji braku sekcji bez odwoływania się do enigmatycznych kolorów linków. KaMan (dyskusja) 11:30, 15 lis 2020 (CET)

@Peter Bowman przyjrzałem się tym projektom na githubie. Czy licencja MIT jest zgodna? Żeby od czegoś zacząć, lista haseł rozbita na pliki *.lst jest tutaj. Prosiłbym o zestawienie tego z kategorią haseł bułgarskich, białoruskich, rosyjskich, serbskich i co tam jeszcze może być w cyrylicy w językach zapisanych w Wikisłownik:Alfabety jako cyryliczne. KaMan (dyskusja) 11:14, 26 gru 2020 (CET)

@KaMan: słownik VESUM jest dostępny na licencji CC BY-NC-SA 4.0. My korzystamy z CC BY-SA 3.0, one ponoć nie są kompatybilne, ale może nie mieć to znaczenia w wypadku pojedynczej strony będącą prostą listą słów, skrzyżowaniem ich i naszej bazy – warto spytać albo wczytać się w w:Pomoc:Porady prawne + w:en:WP:DUAL. Swoją drogą miałem też wątpliwości co do użycia SGJP w Wikisłownikarz:PBbot/brakujące polskie (zob. link, ewentualnie mamy do dyspozycji PoliMorfa na licencji BSD-2).
Co do wspomnianych plików *.lst: VESUM jest bodajże słownikiem morfologicznym, który na podstawie leksemów i afiksów tworzy wszystkie możliwe i potencjalne formy postawowe i odmienione. Sposób użycia to skompilowanie owych plików *.lst, które łączą wszystkie elementy z zastosowaniem określonych reguł, i wytworzenie na ich podstawie listy słów (instrukcja). Spróbuję sobie zainstalować i dam znać. Pozdrawiam, Peter Bowman (dyskusja) 14:20, 27 gru 2020 (CET)

Ukraińskie związki wyrazowe, które nie są umieszczone w kolokacjach lub frazeologiiEdytuj

Przydałaby mi się strona, która pokazywałaby hasła, które mają w tytule sekcji linki do słów składowych i te słowa składowe istnieją ale nie mają tego hasła ani w kolokacjach, ani we frazeologii. Z listą wykluczeń, żeby ominąć spójniki, przyimki itp. Potrzebny stały nadzór więc zadanie cykliczne. KaMan (dyskusja) 13:10, 14 lis 2020 (CET)

Półautomatyczne uzupełnianie akcentów w linkach ukraińskichEdytuj

Chodzi o system do uzupełniania akcentów w hasłach ukraińskich w tych miejscach gdzie akcent by się przydał (czyli de facto każdy link, który prowadzi do hasła ukraińskiego, również czerwone linki, również sekcja tłumaczeń w polskich hasłach). Pomysł opisany jest tutaj i tutaj. Zadanie stałe. KaMan (dyskusja) 13:43, 14 lis 2020 (CET)

Akcent w IPAEdytuj

Dość sporo haseł ma w wymowie (cztery szablony IPA) akcent zaznaczony za pomocą znaku ' , podczas gdy poprawnym symbolem akcentu jest ˈ . Myślę, że można zmienić automatycznie ten symbol – oczywiście wyłącznie wewnątrz szablonów IPA. Maitake (dyskusja) 21:39, 24 lis 2020 (CET)

@Maitake: mniej więcej 20 600 stron. Nie bardzo rozumiem przeznaczenia tego znaku w hasłach фӀ (/f'/), Къв (/q'ʷ/), кӀь (/k'ʲ/)... (dw. @Stanko6). Czy może mieć inne zastosowania, np. zmiękczenie spółgłoski? Peter Bowman (dyskusja) 12:39, 29 lis 2020 (CET)
co do samych znaków - to są oficjalne oddzielne litery tegoż alfabetu, a zapis IPA jest oczywisty, to są fonemy tychże znaków alfabetu--Stanko6 (dyskusja) 12:52, 29 lis 2020 (CET)
  • @Peter Bowman, @Stanko6: W IPA nie używa się w ogóle symbolu ' w żadnym celu ([4], [5], [6]), więc stwierdzenie, że to zapis oczywisty, nie jest prawdziwe, bo ten symbol nie odnosi się do niczego. Z angielskiej Wikipedii wnioskuję, że w tych trzech hasłach abazyńskich chodzi o ʼ (oznaczenie spółgłosek ejektywnych). W takim razie jednak symbol ' nie byłby jednoznaczny, jego zamiana uzależniona byłaby od języka (np. w hiszpańskim ejektywnych nie ma, więc ' musi oznaczać akcent; w abazyńskim ejektywne są, więc ' może oznaczać ejektywność, ale być może również akcent). Czy dałoby się łatwo ustalić, jakich języków dotyczą te 20 tysięcy haseł z symbolem ' wewnątrz szablonów IPA? Maitake (dyskusja) 16:32, 29 lis 2020 (CET)
  • @Maitake: najwięcej jest haseł włoskich i hiszpańskich (lista). Peter Bowman (dyskusja) 21:19, 29 lis 2020 (CET)
  • @Peter Bowman: Dziękuję. Nie spodziewałem się aż takiej ilości, ale postaram się wyrywkowo przejrzeć hasła z języków, w których jest to prawie na pewno znak akcentu, a potem zobaczę, co jest w pozostałych językach. Na razie trzeba się jednak wstrzymać. Pozdrawiam, Maitake (dyskusja) 22:46, 29 lis 2020 (CET)