Wikisłownik:Zadania dla botów

Tutaj możesz umieścić dowolne zadanie dla bota. Któryś z właścicieli botów z pewnością zainteresuje się Twoim problemem i pomoże go rozwiązać. W nowych zgłoszeniach wstaw {{status zgłoszenia|nowe}} pod tytułem sekcji.

Zadania stałe

zadania	boty
Generowanie list haseł z błędami oraz informacyjnych (spis)	AlkamidBot
Aktualizowanie statystyk oraz stron promocyjnych: Presskit, Dlaczego Wikisłownik (podstrony bota)	AlkamidBot
Wspomaganie dodawania nowych języków wg przyjętej struktury (zgłoszenia)	AlkamidBot
Obsługa projektu Wikisłownik:Dodawanie przykładów	AlkamidBot
Usuwanie zerwanych linków do nieistniejących plików (opis)	CommonsDelinker (bez flagi)
Sprzątanie kodu w przestrzeni głównej (opis • listy)	Olafbot
Uzupełnianie i sortowanie {{podobne}} i {{podobne2}} (opis • mapowanie znaków • problemy)	Olafbot
Dodawanie wyrazów pokrewnych w hasłach (opis)	Olafbot
Aktualizacja rankingów braków: słów według wystąpień w innych wikisłownikach, tłumaczeń, angielskie (opis)	Olafbot
Wspomaganie tworzenia haseł (opis • projekt AlkamidBot/sjp • szkice)	Olafbot
Import wymowy angielskiej (opis)	Olafbot
Generowanie wymowy polskiej (opis • lista robocza)	Olafbot
Aktualizowanie indeksu hiszpańskich form czasownikowych	PBbot
Generowanie listy błędów w nagłówkach haseł	PBbot
Śledzenie transkluzji {{sjp.pl}} (lista)	PBbot
Generowanie listy potencjalnych błędów w polu wyrazów pokrewnych w hasłach esperanto (lista)	PBbot
Odświeżanie stron („purge”) i liczników: strona główna, słowniki, kategorie języków	PBbot
Aktualizowanie listy haseł potrzebnych na OZ ({{Potrzebne}})	PBbot
Sprawdzanie odmiany polskich nazwisk (lista)	PBbot
Wyszukiwanie brakujących sekcji polskich na podstawie SGJP (lista)	PBbot
Obsługa i generowanie list na serwerze narzędziowym	PBbot
Generowanie indeksów tematycznych na podstawie szablonów skrótów (projekt Wikipedysta:Beau.bot/indeksy)	PBbot
Wstawianie szablonów audio, usuwanie zerwanych linków (czarna lista • długie)	PBbot

Zlecenia

Bez odmiany w katalońskim

Status:	wykonane

Pierwsze zlecenie :). Poproszę o wygenerowanie listy haseł z języka katalońskiego - rzeczowników i przymiotników bez odmiany. Nostrix (dyskusja) 12:36, 7 lis 2017 (CET)[odpowiedz]

@Nostrix: Na razie przymiotniki. (Rzeczowników jest znacznie więcej). Jeśli jest taka potrzeba, mogę ustawić automatyczne aktualizowanie tej listy skryptem co jakiś czas. PiotrekD^DYSKUSJA 16:09, 8 lis 2017 (CET)[odpowiedz]

I rzeczowniki. PiotrekD^DYSKUSJA 19:37, 8 lis 2017 (CET)[odpowiedz]

Moltes gràcies! Dobrze by było ustawić automatyczne aktualizowanie - mi się na pewno nie będzie chciało ściągać stron z tej listy (bo to sztuka dla sztuki). Nostrix (dyskusja) 20:24, 8 lis 2017 (CET)[odpowiedz]

@Nostrix: Ustawiłem automatyczne aktualizowanie raportów co tydzień, o północy rozpoczynającej niedzielę. Wydaje się działać: 1, 2. Pozdrawiam, PiotrekD^DYSKUSJA 00:58, 17 gru 2017 (CET)[odpowiedz]

Średnioholenderski

Status:	trwa dyskusja

W wielu miejscach w etymologii występuje język średnioholenderski ("średnioholenderskie", "ze średnioholenderskiego", "średnio holenderski", itp.), trzeba to zmienić na średnioniderlandzki. Tłumaczenie "Middle Dutch" jako "średnioholenderski" funkcjonuje tylko w Wikisłowniku. 78.11.217.127 (dyskusja) 10:14, 11 lis 2017 (CET)[odpowiedz]

Wygenerowałem listę na podstawie zrzutu z 3 listopada: Wikipedysta:PBbot/średnioholenderskie w etymologii. Zaledwie 13 haseł, łatwiej będzie edytować strony ręcznie. Pozdrawiam, Peter Bowman (dyskusja) 15:11, 12 lis 2017 (CET)[odpowiedz]

Odmiana katalońska po raz drugi

Status:	w trakcie

Czy istnieje sposób, aby automatycznie (np. botem) dodać odmiany rzeczowników i przymiotników do haseł katalońskich z tej strony (niestety czasami ta strona nie działa, coś z DNSem, przeważnie trzeba poczekać kilka minut lub godzin). Na przykład carismàtic stąd [1] itp. Nostrix (dyskusja) 21:27, 6 sty 2018 (CET)[odpowiedz]

Skrypt do uzupełnienia odmiany rzeczowników jest już napisany, uruchomię go, jeśli nie będzie sprzeciwu. Skrypt do uzupełnienia odmiany przymiotników jest w drodze. PiotrekD^DYSKUSJA 21:29, 6 sty 2018 (CET)[odpowiedz]

Odmiana rzeczowników uzupełniona. Ominąłem nazwy własne (wszystkie słowa zaczynające się wielką literą), słowa niewystępujące w źródle, izmy, a później również te z więcej niż jednym nagłówkiem w definicjach i te z - lub · w nazwie. Przymiotnikami zajmę się w najbliższym czasie®. PiotrekD^DYSKUSJA 23:15, 6 sty 2018 (CET)[odpowiedz]

A licencja tej strony pozwala na bezpośrednie masowe kopiowanie? Nie znam katalońskiego więc nie umiem sam na to odpowiedzieć. KaMan (dyskusja) 09:58, 7 sty 2018 (CET)[odpowiedz]

@KaMan: Używaliśmy tylko form liczby mnogiej, niczego innego, i to podając źródło w opisie. Te formy same w sobie nie są obkopyrajtowane, są częścią naturalnie powstałego języka uwarunkowaną jego zasadami gramatycznymi, równie dobrze moglibyśmy posadzić przed komputerem Katalończyka i prosić go skryptem o szybkie podawanie form na zasadzie, że skrypt wyświetla mu liczbę pojedynczą, on podaje mnogą, skrypt dodaje do hasła i tak po kolei. Albo napisać program generujący te formy na podstawie podręcznika gramatyki. Efekt w tych trzech przypadkach byłby dokładnie taki sam. Pozdrawiam, PiotrekD^DYSKUSJA 11:42, 7 sty 2018 (CET)[odpowiedz]

czyli możemy botem przekopiować odmiany ze słownika {{SGJPonline}} bo "formy nie są obkopyrajtowane"? Według mnie nie. Kopiowanie baz danych również podlega prawu autorskiemu nawet jeżeli komórki tej bazy danych są "oczywiste" KaMan (dyskusja) 15:16, 7 sty 2018 (CET)[odpowiedz]

Okej, więc będę kopiował ręcznie ;). Nostrix (dyskusja) 17:32, 7 sty 2018 (CET)[odpowiedz]

Nie wiem, o jaką bazę danych chodzi; jam żadnej nie widział. Widziałem tylko stronę internetową podającą formy. Skąd oni je podają, nie wiem. Może są generowane w locie, a mają tylko listę istniejących rzeczowników. Do tego baza nie jest potrzebna.

Ale dobrze. Aby uniknąć tego typu problemów, przy przyszłych akcjach masowego uzupełniania form wynajmę na libijskim lub innym akfrykańskim targu niewolników jakiegoś złapanego Katalończyka (czy mówiącego tym językiem, którego hasła wtedy będziemy uzupełniać), każę go postawić przed terminalem z uruchomionym odpowiednim skryptem i niech podaje z głowy formy :). Widoczny efekt będzie dokładnie ten sam, ale nie będzie problemów z prawami autorskimi. (Oczywiście żartuję, ukazując absurdalność sytuacji, nie ma potrzeby dzwonienia po służby, drodzy czytający). PiotrekD^DYSKUSJA 19:07, 7 sty 2018 (CET)[odpowiedz]

https://prawokultury.pl/kurs/bazy-danych KaMan (dyskusja) 19:26, 7 sty 2018 (CET)[odpowiedz]

@PiotrekD Och, w 2015 podobnie mi się tłumaczył pewien autor strony, gdzie zerżnął między innymi całą polską odmianę z Wikisłownika bez podania źródeł. Że to przecież nie od nas, bo odmiana jest wszędzie taka sama. Wskazałem mu konkretny przypadek, gdzie na Wikisłowniku była literówka i u niego też, a w żadnym innym internetowym źródle nie. W razie potrzeby mam jeszcze ze dwie inne takie. Po powołaniu się na ustawę o ochronie baz danych, a konkretnie art. 11, pkt 1.4 o konieczności wypłacenia korzyści z tytułu naruszenia praw do bazy, której wszak jestem współautorem, w końcu skapitulował. O ile wiem, był też proces sądowy, w którym autor tabelki rekordów sportowych analogicznie udowodnił, że inne wydawnictwo przepisało ten zbiór danych właśnie od niego - w spisie były umieszczone specjalnie drobne literówki. Jak chcesz to najmij Katalończyka, ale jak skopiujesz dosłownie, to da się to stwierdzić. O ile oczywiście komukolwiek się będzie chciało. Olaf (dyskusja) 19:44, 12 sty 2018 (CET)[odpowiedz]

@Olaf Idąc tą drogą, korzystanie z jakichkolwiek współczesnych papierowych słowników jest również bardzo ryzykowne: w końcu też mogą zawierać jakieś krytyczne literówki, których nie wyłapiesz. A może uważasz, że należy korzystać tylko ze słowników PD, czyli takich, których autorzy zmarli przed 1948 rokiem?

Z drugiej strony, ochronie podlegają nie wszystkie bazy, a tylko te, które maja cechy utworu (twórczy charakter). Nie jestem pewien, ale mam poważne wątpliwości, czy prosta słownikowa baza odmian spełnia ten warunek (tzn. czy ma jakieś cechy twórcze, których np. nie mają inne, podobne bazy). Dodatkowo, o ile pamiętam, jednym z istotnych warunków uznania bazy za chronioną są poniesione przez właściciela bazy nakładu inwestycyjne (czytaj: poniesione koszty z myślą o przyszłych zyskach). Czy aby na pewno baza o której mowa została utworzona z myślą o zyskach? Można ją kupić? Albo dostęp do niej? Takie moje (być może trochę spóźnione) 0.03 PLN zewnętrznego obserwatora. Ankry (dyskusja) 18:14, 5 lut 2018 (CET)[odpowiedz]

@Ankry Ochronie podlegają wszystkie bazy, nie muszą mieć cech utworu, to ustawa niezależna od prawa autorskiego. Oczywiście granica jest płynna i pewnie nikt by i tak nie zauważył, ale nie możemy oficjalnie uruchomić bota żeby zerżnął jakiś słownik. Jeszcze możesz poprosić autora o zgodę, wysłaną na permissions-pl@wikimedia.org Zgoda musi zawierać informację, jakiej strony dotyczy i że autor udostępnia jej treść na licencji CC-BY-SA 3.0. Zob. w:Wikipedia:OTRS. Kilka zgód już tak się kiedyś udało zdobyć (Wikisłownik:Zgody na wykorzystanie#Uzyskane zgody potwierdzone przez OTRS). Olaf (dyskusja) 23:56, 14 lut 2018 (CET)[odpowiedz]

@Olaf licencja CC-BY-SA 3.0. dotyczy utworów, a więc czegoś, co jest chronione prawem autorskim. Jeśli uważasz, że w przypadku niechronionych prawem autorskim baz danych potrzebna jest zgoda, to musiałaby to być zgoda o zupełnie innej treści. Natomiast, jeśli chodzi o ustawę z 2001 o ochronie baz danych, to nie jest prawdą, że chroni ona wszystkie bazy: chronione są tylko te, gdzie poniesiono nakłady inwestycyjne (czyli musi być w związku z tą bazą powadzona działalność nastawiona na zysk; nie wszystkie koszty są inwestycją). Ankry (dyskusja) 08:05, 15 lut 2018 (CET)[odpowiedz]

Jeszcze odnośnie tego akademickiego sporu: zastanawiam się, czy pobranie promilu odmian z bazy danych, która sama w sobie zawiera więcej informacji (np. dzielenie wyrazów itp.) i "wtopienie" tego do naszej bazy, która sama w sobie jest dużo większa (jako całość) i w samych rekordach (hasłach) zawiera dodatkowe, nie pobrane z tej bazy informacje, jest naruszeniem wspomnianej ustawy. Innymi słowy, w Wikisłowniku jest blisko 700 tys. rekordów, w ca.oslin.org - nie wiem, bo nie podają tego, ale na oko ok. 100 tys. słów katalońskich. My pobieramy z ich bazy ok. 1 tys. danych, wyłącznie odmian i dodajemy do naszej bazy, mieszając to z innymi danymi w naszych rekordach. Czy rzeczywiście jest to naruszenie ustawy i czy zakaz kopiowania wynikający z niej nie dotyczy przypadkiem kopiowania bazy 1:1 i przedstawiania jej jako własnej? Nostrix (dyskusja) 08:52, 15 lut 2018 (CET)[odpowiedz]

Może po prostu trzeba było zrobić tak: bot ładuje dziennie tylko 10 odmian bez podania źródła, czyli tak jak ja robię od tygodni ;). Nostrix (dyskusja) 20:11, 7 sty 2018 (CET)[odpowiedz]

Formy deprecjatywne

Status:	nowe

Od dłuższego czasu chodził mi po głowie pomysł uzupełnienia botem haseł o polskich słowach rodzaju męskoosobowego o formy deprecjatywne, któreśmy mieli podawać, a które wcześniej podawane nie były, więc ich nie ma zwykle. Są one tworzone całkowicie regularnie, poprzez dodanie odpowiedniej końcówki:

„-i” dla zakończonych na „k” i „g”,
„-e” dla zakończonych miękką lub stwardniałą spółgłoską,
„-y” dla pozostałych

do tematu odmiany rzeczownika, który można uzyskać poprzez wzięcie formy dopełniacza i odcięcie „-a”. Co o tym sądzicie? PiotrekD^DYSKUSJA 12:16, 12 sty 2018 (CET)[odpowiedz]

Rzuć przykładem lub przykładami :) Nostrix (dyskusja) 12:19, 12 sty 2018 (CET)[odpowiedz]

@Nostrix: Kilka przykładów:

użytkownik + -i = użytkowniki
malarz + -e = malarze (jak standardowa niedeprecjatywna)
bywalc + -e = bywalce
administrator + -y = administratory

Pozdrawiam, PiotrekD^DYSKUSJA 12:28, 12 sty 2018 (CET)[odpowiedz]

OK, dzięki. Jestem za oczywiście :). Nostrix (dyskusja) 13:34, 12 sty 2018 (CET)[odpowiedz]

Przykład z malarzem pokazuje, że nie zawsze jest to forma deprecjatywna. Jak więc bot miałby to automatycznie odróżniać i kiedy ma dodawać kwalifikator depr., a kiedy nie? Powyższe reguły mają też inne niedoróbki, na przykład rzeczownikiem męskoosobowym jest ksiądz i bot utworzyłby formę deprecjatywną ksiądze. Olaf (dyskusja) 14:35, 12 sty 2018 (CET)[odpowiedz]

@Olaf: Co do „malarze”: jest to forma niedeprecjatywna („ci malarze zrobili”) i deprecjatywna („te malarze zrobiły”) zarazem. Obie mogą być równe. Co do kwalifikatorów: ich już nie używamy w zwykłym polu liczby mnogiej, lecz – zgodnie z WS:Głosowania/formy niedeprecjatywne w odmianie – w oddzielnym polu na dole. Co do „księdze”: to jest rzeczownik o nieregularnej liczbie mnogiej, ale taka właśnie forma jest podawana przez SGJP i WSJP (ten drugi jako kwestionowana)[2][3]. Osobiście jednak ominąłbym przy botowaniu hasła z niestandardową liczbą mnogą. Pozdrawiam, PiotrekD^DYSKUSJA 15:30, 12 sty 2018 (CET)[odpowiedz]

No właśnie podawana jest forma "księdze" a nie "ksiądze", jak wynikałoby z powyższych tych reguł. Trzeba by też te reguły doprecyzować (np. jak dokładnie na podstawie tytułu ustalić, czy na końcu jest "miękka lub stwardniała spółgłoska", jak odróżnić kiedy odmiana jest niestandardowa?). Wszystko jedno gdzie te kwalifikatory wpisujemy, tak czy inaczej bot musi odróżnić czy dana forma jest deprecjatywna, czy niedeprecjatywna, czy jednocześnie i taka i taka, bo w inny sposób wpisze to w kod strony, a sam nie jestem pewien czy potrafię to w każdym przypadku odróżnić. Pomysł nie jest zły, tylko nie widzę możliwości łatwego oprogramowania bota, żeby to robił automatycznie. Dałoby się pewnie to zrobić półautomatycznie, sprawdzając te formy przed lub po edycji, tylko nikomu zapewne nie będzie się chciało tego sprawdzać. To czego bym chciał uniknąć, to zmiana przez jakiegoś bota hurtem tysięcy polskich rzeczowników, z obietnicą, że ktoś to kiedyś sprawdzi. Ale gdyby ktoś był chętny do sprawdzenia listy przed edycją, to czemu by nie. Olaf (dyskusja) 19:24, 12 sty 2018 (CET)[odpowiedz]

@Olaf: Um, z powyższych reguł wynikałaby forma „księdze”; wspomniałem, że formy te tworzymy od tematu odmiany przypadków zależnych, który uzyskiwalibyśmy od formy dopełniacza liczby pojedynczej – „księdza”. Nie zmienia to faktu, że jest to sytuacja wyjątkowa, którą można byłoby ominąć, np. sprawdzając czy forma mianownika lm. jest utworzona jedną z następujących końcówek: -i, -owie, -e, -y. Jeśli nie jest, jest niestandardowa. (Choć o le się nie mylę, w innych sytuacjach mamy do czynienia z nieodmiennym bądź -a (przez połączenie z dawnym rzeczownikiem zbiorowym – księża, bracia – lub przeszłość jako nijakiego – książęta; o innych męskorzeczowych tego typu nie pamiętam)).

Jeśli chodzi o kwestię, czy forma jest deprecjatywna czy niedeprecjatywna, to zasady są następujące, w uproszczeniu, dla końcówek:

-y: Jeśli poprzedza ją „c”, jest niedeprecjatywna (temat odmiany kończy się na „c” lub „k”), w innych przypadkach deprecjatywna.
-i: Jeśli ją poprzedza „k” lub „i”, jest deprecjatywna, w innych przypadkach niedeprecjatywna;
-owie: Zawsze niedeprecjatywna.
-e: Zawsze deprecjatywna, w wielu przypadkach (ale nie wszystkich, zależne od konkretnego wyrazu, kwestie normatywne) również niedeprecjatywna.

Oczywiście powyższe dotyczą tylko mianownika (i wołacza), „-i” i „-y” w dopełniaczu wielu miękkotematowych to inna para kaloszy.

Swoją drogą – konieczne byłoby przed dodaniem deprecjatywnej sprawdzić, czy ona już nie znajduje się w polu standardowym.

Pozdrawiam, PiotrekD^DYSKUSJA 20:25, 12 sty 2018 (CET)[odpowiedz]

a czy te formy nie powinny, per analogia do ostatniej fali zdrobnień, być dodawane tylko jeśli są w użyciu? czyli pomijane formy potencjalne? KaMan (dyskusja) 14:40, 12 sty 2018 (CET)[odpowiedz]

@KaMan: Sytuacja jak z formami wołacza u rzeczy, które zawsze podajemy, choć są bardzo rzadko używane. Inaczej niż w przypadku wspomnianych zdrobnień formy owe nie są oddzielnymi jednostkami leksykalnym i nie mają własnych haseł. Pozdrawiam, PiotrekD^DYSKUSJA 15:34, 12 sty 2018 (CET)[odpowiedz]

Przeniesienie niektórych haseł w tuwalskim

Status:	w trakcie

Zgłoszenie dotyczy Kategoria:Język tuvalu. Mam prośbę o zamianę w nazwach haseł znaku ‘ (U+2018, pojedynczy znak cytowania) na ˈ (U+02C8, znak akcentu stosowany w IPA) oraz korektę linkujących. Haseł nie jest dużo, ale naprawa tego błędu ręcznie byłaby dość uciążliwa. Będę szczerze zobowiązany :). Nostrix (dyskusja) 18:38, 22 cze 2018 (CEST)[odpowiedz]

Przykład: przeniesienie z ‘kavefekau do ˈkavefekau (+ naprawa linkujących). Nostrix (dyskusja) 18:42, 22 cze 2018 (CEST)[odpowiedz]