Wikisłownik:Zadania dla botów

Tutaj możesz umieścić dowolne zadanie dla bota. Któryś z właścicieli botów z pewnością zainteresuje się Twoim problemem i pomoże go rozwiązać. W nowych zgłoszeniach wstaw {{status zgłoszenia|nowe}} pod tytułem sekcji.

Zadania stałeEdytuj

zadania boty
Generowanie list haseł z błędami oraz informacyjnych (spis) AlkamidBot
Aktualizowanie statystyk oraz stron promocyjnych: Presskit, Dlaczego Wikisłownik (podstrony bota)
Wspomaganie dodawania nowych języków wg przyjętej struktury (zgłoszenia)
Obsługa projektu Wikisłownik:Dodawanie przykładów
Usuwanie zerwanych linków do nieistniejących plików (opis) CommonsDelinker
Sprzątanie kodu w przestrzeni głównej (opislisty) Olafbot
Uzupełnianie i sortowanie {{podobne}} i {{podobne2}} (opismapowanie znakówproblemy)
Dodawanie wyrazów pokrewnych w hasłach (opis)
Aktualizacja rankingów braków: słów według wystąpień w innych wikisłownikach, tłumaczeń, angielskie (opis)
Wspomaganie tworzenia haseł (opisprojekt AlkamidBot/sjpszkice)
Import wymowy angielskiej (opis)
Generowanie wymowy polskiej (opislista robocza)
Aktualizowanie indeksu hiszpańskich form czasownikowych PBbot
Generowanie listy błędów w nagłówkach haseł
Śledzenie transkluzji {{sjp.pl}} (lista)
Generowanie listy potencjalnych błędów w polu wyrazów pokrewnych w hasłach esperanto (lista)
Odświeżanie stron („purge”) i liczników: strona główna, słowniki, kategorie języków
Aktualizowanie listy haseł potrzebnych na OZ ({{Potrzebne}})
Sprawdzanie odmiany polskich nazwisk (lista)
Wyszukiwanie brakujących sekcji polskich na podstawie SGJP (lista)
Generowanie spisu artykułów w polskojęzycznej Wikipedii, do których linkujemy w hasłach polskich poprzez szablon {{wikipedia}}, lecz brak linku zwrotnego tamże (lista)
Generowanie spisu polskich haseł, które nie mają uzupełnionej etymologii w Wikidanych (lista)
Obsługa i generowanie list na serwerze narzędziowym
Generowanie indeksów tematycznych na podstawie szablonów skrótów (projekt Wikisłownikarz:Beau.bot/indeksy)
Wstawianie szablonów audio, usuwanie zerwanych linków (czarna listadługie)
Śledzenie nieprawidłowo kategoryzujących szablonów gwar/regionalizmów (lista)
Generowanie list haseł polskich bez nagrania wymowy (serwer narzędziowy)
Generowanie zestawienia selflinków, które prawdopodobnie zostały niesłusznie pogrubione (lista)
Generowanie zestawienia nieuźródłowionych haseł ukraińskich (lista)
Generowane co miesiąc zestawienie aktywnych wikisłownikarzy (top 600) MalarzBOT

ZleceniaEdytuj

Bez odmiany w katalońskimEdytuj

Status: wykonane

Pierwsze zlecenie :). Poproszę o wygenerowanie listy haseł z języka katalońskiego - rzeczowników i przymiotników bez odmiany. Nostrix (dyskusja) 12:36, 7 lis 2017 (CET)

@Nostrix: Na razie przymiotniki. (Rzeczowników jest znacznie więcej). Jeśli jest taka potrzeba, mogę ustawić automatyczne aktualizowanie tej listy skryptem co jakiś czas. PiotrekDDYSKUSJA 16:09, 8 lis 2017 (CET)
I rzeczowniki. PiotrekDDYSKUSJA 19:37, 8 lis 2017 (CET)
Moltes gràcies! Dobrze by było ustawić automatyczne aktualizowanie - mi się na pewno nie będzie chciało ściągać stron z tej listy (bo to sztuka dla sztuki). Nostrix (dyskusja) 20:24, 8 lis 2017 (CET)
@Nostrix: Ustawiłem automatyczne aktualizowanie raportów co tydzień, o północy rozpoczynającej niedzielę. Wydaje się działać: 1, 2. Pozdrawiam, PiotrekDDYSKUSJA 00:58, 17 gru 2017 (CET)

ŚrednioholenderskiEdytuj

Status: odrzucone

W wielu miejscach w etymologii występuje język średnioholenderski ("średnioholenderskie", "ze średnioholenderskiego", "średnio holenderski", itp.), trzeba to zmienić na średnioniderlandzki. Tłumaczenie "Middle Dutch" jako "średnioholenderski" funkcjonuje tylko w Wikisłowniku. 78.11.217.127 (dyskusja) 10:14, 11 lis 2017 (CET)

Wygenerowałem listę na podstawie zrzutu z 3 listopada: Wikipedysta:PBbot/średnioholenderskie w etymologii. Zaledwie 13 haseł, łatwiej będzie edytować strony ręcznie. Pozdrawiam, Peter Bowman (dyskusja) 15:11, 12 lis 2017 (CET)
[1]. Peter Bowman (dyskusja) 00:03, 28 maj 2020 (CEST)

Odmiana katalońska po raz drugiEdytuj

Status: w trakcie

Czy istnieje sposób, aby automatycznie (np. botem) dodać odmiany rzeczowników i przymiotników do haseł katalońskich z tej strony (niestety czasami ta strona nie działa, coś z DNSem, przeważnie trzeba poczekać kilka minut lub godzin). Na przykład carismàtic stąd [2] itp. Nostrix (dyskusja) 21:27, 6 sty 2018 (CET)

Skrypt do uzupełnienia odmiany rzeczowników jest już napisany, uruchomię go, jeśli nie będzie sprzeciwu. Skrypt do uzupełnienia odmiany przymiotników jest w drodze. PiotrekDDYSKUSJA 21:29, 6 sty 2018 (CET)
Odmiana rzeczowników uzupełniona. Ominąłem nazwy własne (wszystkie słowa zaczynające się wielką literą), słowa niewystępujące w źródle, izmy, a później również te z więcej niż jednym nagłówkiem w definicjach i te z - lub · w nazwie. Przymiotnikami zajmę się w najbliższym czasie®. PiotrekDDYSKUSJA 23:15, 6 sty 2018 (CET)

A licencja tej strony pozwala na bezpośrednie masowe kopiowanie? Nie znam katalońskiego więc nie umiem sam na to odpowiedzieć. KaMan (dyskusja) 09:58, 7 sty 2018 (CET)

@KaMan: Używaliśmy tylko form liczby mnogiej, niczego innego, i to podając źródło w opisie. Te formy same w sobie nie są obkopyrajtowane, są częścią naturalnie powstałego języka uwarunkowaną jego zasadami gramatycznymi, równie dobrze moglibyśmy posadzić przed komputerem Katalończyka i prosić go skryptem o szybkie podawanie form na zasadzie, że skrypt wyświetla mu liczbę pojedynczą, on podaje mnogą, skrypt dodaje do hasła i tak po kolei. Albo napisać program generujący te formy na podstawie podręcznika gramatyki. Efekt w tych trzech przypadkach byłby dokładnie taki sam. Pozdrawiam, PiotrekDDYSKUSJA 11:42, 7 sty 2018 (CET)
czyli możemy botem przekopiować odmiany ze słownika {{SGJPonline}} bo "formy nie są obkopyrajtowane"? Według mnie nie. Kopiowanie baz danych również podlega prawu autorskiemu nawet jeżeli komórki tej bazy danych są "oczywiste" KaMan (dyskusja) 15:16, 7 sty 2018 (CET)
Okej, więc będę kopiował ręcznie ;). Nostrix (dyskusja) 17:32, 7 sty 2018 (CET)
Nie wiem, o jaką bazę danych chodzi; jam żadnej nie widział. Widziałem tylko stronę internetową podającą formy. Skąd oni je podają, nie wiem. Może są generowane w locie, a mają tylko listę istniejących rzeczowników. Do tego baza nie jest potrzebna.
Ale dobrze. Aby uniknąć tego typu problemów, przy przyszłych akcjach masowego uzupełniania form wynajmę na libijskim lub innym akfrykańskim targu niewolników jakiegoś złapanego Katalończyka (czy mówiącego tym językiem, którego hasła wtedy będziemy uzupełniać), każę go postawić przed terminalem z uruchomionym odpowiednim skryptem i niech podaje z głowy formy :). Widoczny efekt będzie dokładnie ten sam, ale nie będzie problemów z prawami autorskimi. (Oczywiście żartuję, ukazując absurdalność sytuacji, nie ma potrzeby dzwonienia po służby, drodzy czytający). PiotrekDDYSKUSJA 19:07, 7 sty 2018 (CET)
https://prawokultury.pl/kurs/bazy-danych KaMan (dyskusja) 19:26, 7 sty 2018 (CET)
@PiotrekD Och, w 2015 podobnie mi się tłumaczył pewien autor strony, gdzie zerżnął między innymi całą polską odmianę z Wikisłownika bez podania źródeł. Że to przecież nie od nas, bo odmiana jest wszędzie taka sama. Wskazałem mu konkretny przypadek, gdzie na Wikisłowniku była literówka i u niego też, a w żadnym innym internetowym źródle nie. W razie potrzeby mam jeszcze ze dwie inne takie. Po powołaniu się na ustawę o ochronie baz danych, a konkretnie art. 11, pkt 1.4 o konieczności wypłacenia korzyści z tytułu naruszenia praw do bazy, której wszak jestem współautorem, w końcu skapitulował. O ile wiem, był też proces sądowy, w którym autor tabelki rekordów sportowych analogicznie udowodnił, że inne wydawnictwo przepisało ten zbiór danych właśnie od niego - w spisie były umieszczone specjalnie drobne literówki. Jak chcesz to najmij Katalończyka, ale jak skopiujesz dosłownie, to da się to stwierdzić. O ile oczywiście komukolwiek się będzie chciało. Olaf (dyskusja) 19:44, 12 sty 2018 (CET)
@Olaf Idąc tą drogą, korzystanie z jakichkolwiek współczesnych papierowych słowników jest również bardzo ryzykowne: w końcu też mogą zawierać jakieś krytyczne literówki, których nie wyłapiesz. A może uważasz, że należy korzystać tylko ze słowników PD, czyli takich, których autorzy zmarli przed 1948 rokiem?
Z drugiej strony, ochronie podlegają nie wszystkie bazy, a tylko te, które maja cechy utworu (twórczy charakter). Nie jestem pewien, ale mam poważne wątpliwości, czy prosta słownikowa baza odmian spełnia ten warunek (tzn. czy ma jakieś cechy twórcze, których np. nie mają inne, podobne bazy). Dodatkowo, o ile pamiętam, jednym z istotnych warunków uznania bazy za chronioną są poniesione przez właściciela bazy nakładu inwestycyjne (czytaj: poniesione koszty z myślą o przyszłych zyskach). Czy aby na pewno baza o której mowa została utworzona z myślą o zyskach? Można ją kupić? Albo dostęp do niej? Takie moje (być może trochę spóźnione) 0.03 PLN zewnętrznego obserwatora. Ankry (dyskusja) 18:14, 5 lut 2018 (CET)
@Ankry Ochronie podlegają wszystkie bazy, nie muszą mieć cech utworu, to ustawa niezależna od prawa autorskiego. Oczywiście granica jest płynna i pewnie nikt by i tak nie zauważył, ale nie możemy oficjalnie uruchomić bota żeby zerżnął jakiś słownik. Jeszcze możesz poprosić autora o zgodę, wysłaną na permissions-pl@wikimedia.org Zgoda musi zawierać informację, jakiej strony dotyczy i że autor udostępnia jej treść na licencji CC-BY-SA 3.0. Zob. w:Wikipedia:OTRS. Kilka zgód już tak się kiedyś udało zdobyć (Wikisłownik:Zgody na wykorzystanie#Uzyskane zgody potwierdzone przez OTRS). Olaf (dyskusja) 23:56, 14 lut 2018 (CET)
@Olaf licencja CC-BY-SA 3.0. dotyczy utworów, a więc czegoś, co jest chronione prawem autorskim. Jeśli uważasz, że w przypadku niechronionych prawem autorskim baz danych potrzebna jest zgoda, to musiałaby to być zgoda o zupełnie innej treści. Natomiast, jeśli chodzi o ustawę z 2001 o ochronie baz danych, to nie jest prawdą, że chroni ona wszystkie bazy: chronione są tylko te, gdzie poniesiono nakłady inwestycyjne (czyli musi być w związku z tą bazą powadzona działalność nastawiona na zysk; nie wszystkie koszty są inwestycją). Ankry (dyskusja) 08:05, 15 lut 2018 (CET)
Jeszcze odnośnie tego akademickiego sporu: zastanawiam się, czy pobranie promilu odmian z bazy danych, która sama w sobie zawiera więcej informacji (np. dzielenie wyrazów itp.) i "wtopienie" tego do naszej bazy, która sama w sobie jest dużo większa (jako całość) i w samych rekordach (hasłach) zawiera dodatkowe, nie pobrane z tej bazy informacje, jest naruszeniem wspomnianej ustawy. Innymi słowy, w Wikisłowniku jest blisko 700 tys. rekordów, w ca.oslin.org - nie wiem, bo nie podają tego, ale na oko ok. 100 tys. słów katalońskich. My pobieramy z ich bazy ok. 1 tys. danych, wyłącznie odmian i dodajemy do naszej bazy, mieszając to z innymi danymi w naszych rekordach. Czy rzeczywiście jest to naruszenie ustawy i czy zakaz kopiowania wynikający z niej nie dotyczy przypadkiem kopiowania bazy 1:1 i przedstawiania jej jako własnej? Nostrix (dyskusja) 08:52, 15 lut 2018 (CET)
  • Może po prostu trzeba było zrobić tak: bot ładuje dziennie tylko 10 odmian bez podania źródła, czyli tak jak ja robię od tygodni ;). Nostrix (dyskusja) 20:11, 7 sty 2018 (CET)

Formy deprecjatywneEdytuj

Status: w trakcie

Od dłuższego czasu chodził mi po głowie pomysł uzupełnienia botem haseł o polskich słowach rodzaju męskoosobowego o formy deprecjatywne, któreśmy mieli podawać, a które wcześniej podawane nie były, więc ich nie ma zwykle. Są one tworzone całkowicie regularnie, poprzez dodanie odpowiedniej końcówki:

  • „-i” dla zakończonych na „k” i „g”,
  • „-e” dla zakończonych miękką lub stwardniałą spółgłoską,
  • „-y” dla pozostałych

do tematu odmiany rzeczownika, który można uzyskać poprzez wzięcie formy dopełniacza i odcięcie „-a”. Co o tym sądzicie? PiotrekDDYSKUSJA 12:16, 12 sty 2018 (CET)

Rzuć przykładem lub przykładami :) Nostrix (dyskusja) 12:19, 12 sty 2018 (CET)
@Nostrix: Kilka przykładów:
Pozdrawiam, PiotrekDDYSKUSJA 12:28, 12 sty 2018 (CET)
OK, dzięki. Jestem za oczywiście :). Nostrix (dyskusja) 13:34, 12 sty 2018 (CET)
Przykład z malarzem pokazuje, że nie zawsze jest to forma deprecjatywna. Jak więc bot miałby to automatycznie odróżniać i kiedy ma dodawać kwalifikator depr., a kiedy nie? Powyższe reguły mają też inne niedoróbki, na przykład rzeczownikiem męskoosobowym jest ksiądz i bot utworzyłby formę deprecjatywną ksiądze. Olaf (dyskusja) 14:35, 12 sty 2018 (CET)
@Olaf: Co do „malarze”: jest to forma niedeprecjatywna („ci malarze zrobili”) i deprecjatywna („te malarze zrobiły”) zarazem. Obie mogą być równe. Co do kwalifikatorów: ich już nie używamy w zwykłym polu liczby mnogiej, lecz – zgodnie z WS:Głosowania/formy niedeprecjatywne w odmianie – w oddzielnym polu na dole. Co do „księdze”: to jest rzeczownik o nieregularnej liczbie mnogiej, ale taka właśnie forma jest podawana przez SGJP i WSJP (ten drugi jako kwestionowana)[3][4]. Osobiście jednak ominąłbym przy botowaniu hasła z niestandardową liczbą mnogą. Pozdrawiam, PiotrekDDYSKUSJA 15:30, 12 sty 2018 (CET)
No właśnie podawana jest forma "księdze" a nie "ksiądze", jak wynikałoby z powyższych tych reguł. Trzeba by też te reguły doprecyzować (np. jak dokładnie na podstawie tytułu ustalić, czy na końcu jest "miękka lub stwardniała spółgłoska", jak odróżnić kiedy odmiana jest niestandardowa?). Wszystko jedno gdzie te kwalifikatory wpisujemy, tak czy inaczej bot musi odróżnić czy dana forma jest deprecjatywna, czy niedeprecjatywna, czy jednocześnie i taka i taka, bo w inny sposób wpisze to w kod strony, a sam nie jestem pewien czy potrafię to w każdym przypadku odróżnić. Pomysł nie jest zły, tylko nie widzę możliwości łatwego oprogramowania bota, żeby to robił automatycznie. Dałoby się pewnie to zrobić półautomatycznie, sprawdzając te formy przed lub po edycji, tylko nikomu zapewne nie będzie się chciało tego sprawdzać. To czego bym chciał uniknąć, to zmiana przez jakiegoś bota hurtem tysięcy polskich rzeczowników, z obietnicą, że ktoś to kiedyś sprawdzi. Ale gdyby ktoś był chętny do sprawdzenia listy przed edycją, to czemu by nie. Olaf (dyskusja) 19:24, 12 sty 2018 (CET)
@Olaf: Um, z powyższych reguł wynikałaby forma „księdze”; wspomniałem, że formy te tworzymy od tematu odmiany przypadków zależnych, który uzyskiwalibyśmy od formy dopełniacza liczby pojedynczej – „księdza”. Nie zmienia to faktu, że jest to sytuacja wyjątkowa, którą można byłoby ominąć, np. sprawdzając czy forma mianownika lm. jest utworzona jedną z następujących końcówek: -i, -owie, -e, -y. Jeśli nie jest, jest niestandardowa. (Choć o le się nie mylę, w innych sytuacjach mamy do czynienia z nieodmiennym bądź -a (przez połączenie z dawnym rzeczownikiem zbiorowym – księża, bracia – lub przeszłość jako nijakiego – książęta; o innych męskorzeczowych tego typu nie pamiętam)).
Jeśli chodzi o kwestię, czy forma jest deprecjatywna czy niedeprecjatywna, to zasady są następujące, w uproszczeniu, dla końcówek:
  • -y: Jeśli poprzedza ją „c”, jest niedeprecjatywna (temat odmiany kończy się na „c” lub „k”), w innych przypadkach deprecjatywna.
  • -i: Jeśli ją poprzedza „k” lub „i”, jest deprecjatywna, w innych przypadkach niedeprecjatywna;
  • -owie: Zawsze niedeprecjatywna.
  • -e: Zawsze deprecjatywna, w wielu przypadkach (ale nie wszystkich, zależne od konkretnego wyrazu, kwestie normatywne) również niedeprecjatywna.
Oczywiście powyższe dotyczą tylko mianownika (i wołacza), „-i” i „-y” w dopełniaczu wielu miękkotematowych to inna para kaloszy.
Swoją drogą – konieczne byłoby przed dodaniem deprecjatywnej sprawdzić, czy ona już nie znajduje się w polu standardowym.
Pozdrawiam, PiotrekDDYSKUSJA 20:25, 12 sty 2018 (CET)
a czy te formy nie powinny, per analogia do ostatniej fali zdrobnień, być dodawane tylko jeśli są w użyciu? czyli pomijane formy potencjalne? KaMan (dyskusja) 14:40, 12 sty 2018 (CET)
@KaMan: Sytuacja jak z formami wołacza u rzeczy, które zawsze podajemy, choć są bardzo rzadko używane. Inaczej niż w przypadku wspomnianych zdrobnień formy owe nie są oddzielnymi jednostkami leksykalnym i nie mają własnych haseł. Pozdrawiam, PiotrekDDYSKUSJA 15:34, 12 sty 2018 (CET)

Przeniesienie niektórych haseł w tuwalskimEdytuj

Status: wykonane

Zgłoszenie dotyczy Kategoria:Język tuvalu. Mam prośbę o zamianę w nazwach haseł znaku (U+2018, pojedynczy znak cytowania) na ˈ (U+02C8, znak akcentu stosowany w IPA) oraz korektę linkujących. Haseł nie jest dużo, ale naprawa tego błędu ręcznie byłaby dość uciążliwa. Będę szczerze zobowiązany :). Nostrix (dyskusja) 18:38, 22 cze 2018 (CEST)

@Nostrix: zrobione – przeniosłem i naprawiłem linkujące, przy okazji wyszukałem pozostałe wystąpienia tego znaku w hasłach tuvalu i podmieniłem na nowy. Pozdrawiam, Peter Bowman (dyskusja) 18:22, 23 cze 2018 (CEST)

Zamiana {{poznań}} w pobliżu {{Gruchmanowa1997online}} na {{gw-pl}}Edytuj

Status: wykonane

Planuję przy użyciu własnego bota pozamieniać w hasłach opisujących gwarę miejską stary szablon {{poznań}} (błędnie oznaczający słowo/znaczenie jako regionalizm) na {{gw-pl|Poznań}} (oznaczający jako dialektyzm), jeśli towarzyszy mu szablon {{Gruchmanowa1997online}}. Wpisuję się tutaj dla jasności i porządku. PiotrekDDYSKUSJA 00:02, 20 wrz 2019 (CEST)

Załatwione. W przyszłości planuję dokonać podobnych zmian w przypadku innych gwar i innych źródeł, będę o tym jeszcze pisał w odpowiednim k temu czasie. PiotrekDDYSKUSJA 23:39, 24 wrz 2019 (CEST)

Poprawa linków do WikiźródełEdytuj

Status: wycofane

Zmieniłem szablon {{Bruckner1927}} tak, aby parametr hasło linkował bezpośrednio do odpowiedniego hasła słownikowego w Wikiźródłach, a jeśli ten parametr byłby niewypełniony, to nastąpi automatyczne pobranie nazwy strony i również bezpośrednie linkowanie do Wikiźródeł. Teraz trzeba jednak dokonać zmian w Wikisłowniku wszędzie tam, gdzie w parametrze hasło wpisano nie samo hasło, a ścieżkę dostępu do Wikiźródeł, czyli np. zamiast hasło=brat wpisano hasło=[[:s:Słownik etymologiczny języka polskiego/brat|brat]]. Z tej ścieżki dostępu [[:s:Słownik etymologiczny języka polskiego/brat|brat]] należy pozostawić jedynie to, co zaznaczyłem powiększeniem i pogrubieniem (jeśli ten zaznaczony wyraz jest idealnie zgodny z nazwą strony, to można całą ścieżkę usunąć, nie ma to znaczenia). Obecne błędne wyświetlanie można zobaczyć np. w haśle brat. Maitake (dyskusja) 18:53, 29 paź 2019 (CET)

  • Wycofane. Maitake (dyskusja) 06:47, 31 paź 2019 (CET)
    • Mimo wszystko uporządkowałem wywołania, zamieniając długi link do Wikiźródeł na prosty ciąg znaków, jak zaznaczono wyżej (wyszło 111 stron). Peter Bowman (dyskusja) 20:26, 12 lis 2019 (CET)

Wygenerowanie listy brakujących przykładówEdytuj

Status: wykonane

Poproszę o wygenerowanie listy haseł polskich, które: a) nie mają żadnych przykładów w polu przykłady, b) do strony linkują inne hasła z pola przykłady (włączając w to inne języki). Jest to więc proste sprawdzenie linkujących, ale z wykluczeniem linków z pól typu kolokacje, pokrewne czy znaczenia. Fajnie, jakby lista była w jakiejś strawnej postaci, np. tabelki z linkami. Nostrix (dyskusja) 14:00, 12 lis 2019 (CET)

@Nostrix: zacząłem pisać automat, który odświeżałby taką listę w przestrzeni użytkownika PBbot. Nie zdałem sobie sprawy, że będzie zajmowała ponad 3 MB (w sumie 14217 pozycji), więc na razie wrzuciłem tu. Mogę to umieścić na serwerze, aby dało się wygodnie przeglądać (np. góra kilkaset wystąpień na stronie). Zauważyłem, że muszę przefiltrować przykłady obcojęzyczne, ignorując linki przed strzałką. Przy okazji: skrypt ToStera umożliwia wyszukiwanie oraz wstawianie przykładów na podstawie linkujących. Pozdrawiam, Peter Bowman (dyskusja) 20:05, 12 lis 2019 (CET)
Uuu, myślałem, że będzie tego mniej... No cóż, trzeba zakasać rękawy i edytować :). Ale faktycznie odfiltrowanie jest konieczne, więc na razie poczekam. Fajnie by było, gdybyś umieścił to na toolserwerze i ustawił odświeżanie np. raz w tygodniu. Będę zobowiązany :). A o jakim skrypcie ToStera piszesz? Nostrix (dyskusja) 22:14, 12 lis 2019 (CET)
@Nostrix: chodziło mi o gadżet „Interaktywny formularz do edycji i wprowadzania nowych haseł”; przycisk pod polem przykłady przeszukuje linkujące i generuje propozycje przykładów, które moża wstawić do hasła za jednym kliknięciem. O tym samym gadżecie pojawiały się wzmianki na WS:Bar/Dyskusje ogólne/Źródłosłów. Peter Bowman (dyskusja) 00:45, 13 lis 2019 (CET)
@Peter Bowman Gadżet faktycznie działa bardzo fajnie i sprawnie się edytuje. Potrzebna jest jednak wciąż lista haseł z brakiem przykładów :). Nostrix (dyskusja) 08:57, 17 lis 2019 (CET)
@Nostrix: listę roboczą podlinkowałem wcześniej, tyle że nie zapisałem jej jak zwykle w nowej podstronie bota, bo to trochę za duży rozmiar jak na wiki. Jeśli zdążę, chciałbym ją umieścić dzisiaj na serwerze narzędziowym. Peter Bowman (dyskusja) 13:46, 17 lis 2019 (CET)
Zauważyłem, że wyszukiwanie nie działa w przypadku haseł umieszczonych w kategorii polski - terminy obce (indeks), np. w entourage nie znajduje przykładu z pisowski. Dałoby się to naprawić kiedyś przy jakieś okazji? ;) Nostrix (dyskusja) 14:08, 21 lis 2019 (CET)
@Nostrix: zrobione, już znajduje :). Peter Bowman (dyskusja) 21:34, 21 lis 2019 (CET)
@Nostrix: lista dostępna jest teraz na stronie toolforge:pbbot/weblists/plwikt-missing-polish-examples. Zadanie oznaczam już jako wykonane, ale daj znać, jeżeli zauważysz, że można coś ulepszyć w tym narzędziu. Pozdrawiam, Peter Bowman (dyskusja) 20:30, 23 lis 2019 (CET)
@Peter Bowman Po raz n-ty Ci bardzo dziękuję! <3 Nostrix (dyskusja) 16:09, 24 lis 2019 (CET)

Zbędne dwukropkiEdytuj

Status: wykonane

Następujące szablony: {{on}}, {{kun}}, {{nanori}} mają już zakodowany dwukropek, który wyświetla się automatycznie. Mimo to w niektórych hasłach japońskich stoi po nich dodatkowo dwukropek w kodzie strony, co skutkuje wyświetlaniem dwóch dwukropków. Czy jakiś bot mógłby pousuwać dwukropki stojące bezpośrednio po tych szablonach w hasłach japońskich, w polu „czytania”? W innych miejscach szablony te nie powinny występować, a nawet jeśli, to chyba dwukropek też jest zbędny, ale pewności nie mam. Maitake (dyskusja) 13:31, 2 wrz 2020 (CEST)

@Maitake: wyszły mi łącznie 202 hasła, które niebawem przebotuję. W międzyczasie: w hasłach 岩#ja oraz 髪#ja mamy puste nanori; w hasłach 岩#ja 神#ja, 雷#ja, 塚#ja, 営#ja oraz 十七#ja wspomniane szablony występują także w innych polach. Peter Bowman (dyskusja) 14:09, 2 wrz 2020 (CEST)
Skoro już przy tym jesteśmy – zauważyłem, że czasem grupy czytań on'yomi, kun'yomi, nanori są oddzielane przecinkami, czasem nie. Chodzi mi o pogrubiony przecinek w poniższym wierszu:
{{on}} シ (shi), サイ (sai), {{kun}} ふる.う (furu.u)
W w/w kolekcji ok. 200 haseł tych pierwszych jest dwa razy więcej. Mogę przy okazji ujednolicić wygląd – przecinek wszędzie dodać, usunąć albo zamienić np. na średnik (i opisać później w dokumentacji szablonów). Peter Bowman (dyskusja) 14:25, 2 wrz 2020 (CEST)
  • Dziękuję bardzo. Wydaje mi się, że jakiś znak pomiędzy poszczególnymi rodzajami czytań byłby sensowny, bo jeśli jest pomiędzy poszczególnymi czytaniami w obrębie jednego typu (przecinek), to powinien być też pomiędzy typami – chyba lepiej, żeby to był średnik (choć w kilku sam wstawiłem przecinek). — Wymienionymi powyżej hasłami, w których te szablony występują w polach innych niż „czytania”, zaraz się zajmę. Pozdrawiam, Maitake (dyskusja) 15:22, 2 wrz 2020 (CEST)
  • Dziękuję. Usunąłem botem wszystkie dwukropki (ostatecznie wyszło 201 haseł), zadanie oznaczam jako wykonane. Sądzę, że co do średników nie ma pośpiechu – na wszelki wypadek jeszcze trochę poczekam i najwcześniej za tydzień lub dwa przebotuję wszystkie czytania (ok. 600 stron), jeżeli nie będzie sprzeciwu. Pozdrawiam, Peter Bowman (dyskusja) 16:55, 2 wrz 2020 (CEST)
  • @Peter Bowman: Poprawiłem wszystkie wymienione wyżej hasła. Jedynie w haśle 岩#ja (wymieniony w drugiej serii jako pierwszy) nie znalazłem żadnego szablonu w polu innym niż „czytania” – czy to jakaś pomyłka? Chodziło o inny znak? Było puste nanori, co poprawiłem, ale w innych polach nie znalazłem. Pozdrawiam, Maitake (dyskusja) 19:38, 2 wrz 2020 (CEST)
  • @Maitake: przepraszam, to moja pomyłka przy kopiowaniu znaków, hasło miało być wyłącznie w pierwszej serii. Dziękuję za pomoc i pozdrawiam, Peter Bowman (dyskusja) 20:28, 2 wrz 2020 (CEST)
  • To ja dziękuję bardzo. I na wszelki wypadek oznaczam jeszcze raz jako   Załatwione. Pozdrawiam, Maitake (dyskusja) 20:36, 2 wrz 2020 (CEST)

Etymologia plusowa w przymiotnikach polskichEdytuj

Status: nowe

Mamy w naszym słowniku wiele przymiotników polskich od nazw geograficznych (choć nie tylko) utworzonych po prostu poprzez dodanie do tematu odmiany rzeczownika sufiksu „-ski”. Planuję pouzupełniać w tych hasłach botem sekcję etymologii, wstawiając tam po prostu {{etymn|TEMAT|-ski}}. (Oczywiście będę musiał ominąć przymiotniki, które nie są takim prostym złożeniem, np. teksański, zachodniopomorski, odautorski i inne, oraz uwzględnić uproszczenia w stylu „ss” > „s” i „zs” > „s”). Wpisuję się tutaj dla jasności, a może też wysłuchania uwag czy sprzeciwów. PiotrekDDYSKUSJA 12:24, 19 paź 2020 (CEST)

  • @PiotrekD: Nie widzę przeciwwskazań, o ile tylko zmiana będzie półautomatyczna, tzn. ktoś będzie ręcznie wychwytywał przypadki, w których między tematem a przyrostkiem zachodzą zmiany bądź temat ulega np. skróceniu. Pozdrawiam, Maitake (dyskusja) 16:01, 19 paź 2020 (CEST)

Znaczenia ukraińskie bez źródełEdytuj

Status: wykonane

Chciałbym w miarę możliwości uźródłowić wszystkie znaczenia w ukraińskich hasłach. Mam odpowiednie źródła. Potrzebowałbym listę ukraińskich haseł, w których jest znaczenie, w którym jest wiersz, w którym brak jest wywołania któregokolwiek z szablonów znajdujących się w kategorii Kategoria:Szablony źródeł (ukraiński). Lista szablonów w tej kategorii będzie się zmieniała, bo właśnie zamówiłem kolejne słowniki na Ukrainie, więc dobrze by było gdyby bot zaczytywał tę listę dynamicznie w razie kolejnych przebiegów. W liście wystarczy mi tylko link do hasła bez źródła. Jeśli to możliwe to prosiłbym żeby na liście hasła były podzielone w sekcje po 10 sztuk. Czy jest to możliwe. Do ustalenia jest czy po przerobieniu mam hasła z listy usuwać ręcznie czy też bot będzie w miarę często listę aktualizował i sam usuwał zrobione, dostosuję się. Mam nadzieję, że nie jest to zbyt trudne. :) KaMan (dyskusja) 07:48, 22 paź 2020 (CEST)

@KaMan, ograniczyłem listę, bo jest tego trochę dużo: Wikisłownikarz:PBbot/nieuźródłowione hasła ukraińskie. Obecnie automat jest ustawiony na odświeżanie listy codziennie w nocy, o ile wykonano jakieś zmiany w hasłach. Czy taki tryb jest odpowiedni? Peter Bowman (dyskusja) 13:56, 22 paź 2020 (CEST)
@Peter Bowman Jest idealnie. :) Pięknie dziękuję! KaMan (dyskusja) 14:06, 22 paź 2020 (CEST)
@Peter Bowman Mały ale dokuczliwy drobiazg. Hasło Алжир trafiło do zestawienia chociaż oba znaczenia mają źródło. Problem w tym, że drugie znaczenie refuje z parametrem name do źródła z pierwszego znaczenia, więc nie ma wywołania szablonu, ale jest poprawnie uźródłowione. Takich przypadków będzie wiele, sam chyba 3 takie hasła dzisiaj utworzyłem. Czy widzisz jakieś proste rozwiązanie by takie hasło nie trafiało do zestawienia? KaMan (dyskusja) 16:18, 22 paź 2020 (CEST)
@KaMan: uwzględniłem ten niuans, ale bot utknął przy braku cudzysłowów wokół nazwy atrybutu. Ciąg <ref name=uk/> zinterpretował jako <ref name="uk/"></ref> zamiast <ref name="uk"></ref>, dlatego nie udało mu się podporządkować drugiego przypisu. Teraz powinno być dobrze: Specjalna:Diff/7447154. Peter Bowman (dyskusja) 17:27, 22 paź 2020 (CEST)
@Peter Bowman Dziękuję. Ale rodzi mi się pytanie, czy parametr do ref bez cudzysłowów jest na 100% ok? Nie ukrywam, że sam stosuję takie rozwiązanie bo to o dwa przypadki naciśnięcia shifta mniej niż potrzeba (każda kombinacja z dwoma klawiszami jest kłopotem dla szybkich palców). Czy nie warto by jakiś bot te cudzysłowy uzupełniał? KaMan (dyskusja) 06:05, 23 paź 2020 (CEST)
@KaMan: brak cudzysłowów (prostych lub podwójnych) jest w zgodzie ze specyfikacją HTML5, ewentualnie zawiniła implementacja parsera HTML, z którego korzystam ([5]). Właściwie problem rodzi się z użycia samozamykającego znacznika <ref/>, który jest jak najbardziej w porządku w projektach wiki. W swoich starych skryptach znalazłem komentarz, jakoby wstawienie spacji zaraz przed zamykającym /> miało uchronić przed niewłaściwą interpretacją. Tak czy inaczej, obecny kod już sobie z tym dobrze radzi i nie musisz niczego zmieniać :). Tym samym uzupełnianie cudzysłowów botem miałoby charakter zmiany kosmetycznej, toteż nie ma sensu uruchamianie automatu tylko w tym celu. Peter Bowman (dyskusja) 11:24, 23 paź 2020 (CEST)

Istniejące hasła, w których brak sekcji ukraińskiejEdytuj

Status: nowe

Chodzi o to by na podstawie tej strony przygotować ukraiński odpowiednik tej strony? Czyli chodzi o istniejące strony, w których nie ma sekcji ukraińskiej a według słowników internetowych powinna być. Ewentualnie chociaż na podstawie https://slovnyk.ua/index.php?s1=1&s2=0, chociaż na tej pierwszej stronie jest zdecydowanie większy zbiór słów. Chyba zlecenie cykliczne. KaMan (dyskusja) 13:10, 14 lis 2020 (CET)

Cały słownik SGJP (pobrany na dysku) można przeskanować w kilkanaście sekund, natomiast w tym samym czasie wyślę najwyżej kilka zapytań do tego ukraińskiego słownika online, po jednym na hasło (po krótkim czasie zapewne dostałbym bana). Tu znalazłem alternatywne projekty otwarte, m.in. VESUM i mphdict. Peter Bowman (dyskusja) 18:28, 14 lis 2020 (CET)
@Peter Bowman Rozumiem, nie umiem się niestety poruszać po githubie, nie wiem gdzie tam są bazy słów do przejrzenia. Można tam jakoś odczytać ogólną liczbę haseł? Jeśli liczba haseł jest rzędu 100-150 tysięcy to już jest warto po to sięgnąć. A może zestawienie względem sumy tych otwartych projektów? KaMan (dyskusja) 02:56, 15 lis 2020 (CET)
  • @KaMan: Nie wiem dokładnie, jaki jest cel tak akurat skonstruowanej listy, ale czy nie lepiej byłoby uzupełniać hasła ukraińskie według jakiejś listy frekwencyjnej, tzn. najpierw te najczęstsze wyrazy, które nie mają jeszcze haseł? (Trzeba by tylko znaleźć taką listę.) Istnieje już Ranking brakujących słów według wystąpień w innych wikisłownikach, czy on nie byłby lepszy? Zawiera tysiąc wyrazów, bazuje na istniejących hasłach w innych Wikisłownikach i jest codziennie aktualizowany; kolorowanie linków wskaże, które hasła już istnieją, ale bez sekcji ukraińskiej. Pozdrawiam, Maitake (dyskusja) 18:51, 14 lis 2020 (CET)
    @Maitake Cel takiej listy jest taki, że niebieskie linki wprowadzają w hasłach w błąd użytkowników, że hasło jest, a w rzeczywistości go nie ma. W dodatku tworzenie takich haseł jest z reguły proste, bo znaczenie tych haseł jest zwykle takie jak istniejącej już sekcji rosyjskiej czy białoruskiej (oczywiście trzeba to mimo wszystko sprawdzić w źródłach). Rzecz jasna lista frekwencyjna też by się przydała, ale na tej stronie ktoś już stworzył listę list frekwencyjnych dla różnych języków i widocznie dla ukraińskiego niczego dobrego na otwartej licencji nie znalazł. Z rankingu haseł w innych wikisłownikach już korzystam, m.in. dlatego tworzę hasła o literach ukraińskich, bo w tym rankingu były dość wysoko. KaMan (dyskusja) 02:56, 15 lis 2020 (CET)
  • @KaMan: Jeśli chodzi o mylące linki, to może warto by się postarać o domyślne włączenie dla wszystkich kolorowania linków, wtedy od razu każdy by wiedział, czy hasło istnieje, czy nie, bo linków niebieskich byłoby dużo mniej. Natomiast dla języka ukraińskiego listy frekwencyjne oczywiście istnieją, wymienia je np. ukraińska Wikipedia (Частотний словник), coś można znaleźć także w Internecie (Mova.info), choć dostęp do samych danych trzeba by najpierw rozgryźć i sprawdzić ich licencję (ale np. Indeks:Rosyjski - Najpopularniejsze słowa przekopiowano z portugalskiego Wikisłownika, gdzie jako źródło podano drukowany Частотный словарь современного русского литературного языка z 1963, pewnie nie udostępniony na wolnej licencji). Pozdrawiam, Maitake (dyskusja) 11:21, 15 lis 2020 (CET)
    @Maitake Kolorowanie linków oczywiście to przydatna rzecz, ale dla zwykłego użytkownika kolor nic nie mówi, nie ma legendy na stronach mówiącej jaki kolor linku co oznacza. Jak wchodzi w czerwony link to widzi komunikat, że hasło nie utworzone. A jak wchodzi w pokolorowany link (bo skąd ma wiedzieć, że inny kolor oznacza brak języka) to nie widzi komunikatu brak sekcji, ładuje mu się pierwsza z góry sekcja i dopiero na stronie szuka hasła ukraińskiego a tego nie ma. Zresztą nie wiem czy w widokach mobilnych skrypt do kolorowania sekcji działa, inne skrypty nie działają. Lista, o którą poprosiłem pomogłaby uniknąć sytuacji braku sekcji bez odwoływania się do enigmatycznych kolorów linków. KaMan (dyskusja) 11:30, 15 lis 2020 (CET)

Ukraińskie związki wyrazowe, które nie są umieszczone w kolokacjach lub frazeologiiEdytuj

Status: nowe

Przydałaby mi się strona, która pokazywałaby hasła, które mają w tytule sekcji linki do słów składowych i te słowa składowe istnieją ale nie mają tego hasła ani w kolokacjach, ani we frazeologii. Z listą wykluczeń, żeby ominąć spójniki, przyimki itp. Potrzebny stały nadzór więc zadanie cykliczne. KaMan (dyskusja) 13:10, 14 lis 2020 (CET)

Półautomatyczne uzupełnianie akcentów w linkach ukraińskichEdytuj

Status: nowe

Chodzi o system do uzupełniania akcentów w hasłach ukraińskich w tych miejscach gdzie akcent by się przydał (czyli de facto każdy link, który prowadzi do hasła ukraińskiego, również czerwone linki, również sekcja tłumaczeń w polskich hasłach). Pomysł opisany jest tutaj i tutaj. Zadanie stałe. KaMan (dyskusja) 13:43, 14 lis 2020 (CET)

Wyłapanie zdublowanych przypisówEdytuj

Status: nowe

Przez przypadek przeglądając edycje Olafbota na hasłach ukraińskich wyłapałem przypadek gdy użyłem drugi raz tego samego przypisu w obrębie jednej sekcji. Poprawiłem, ale zastanowiło mnie czy nie ma takich przypadków więcej, dlatego proszę o zestawienie sytuacji gdy w obrębie jednej sekcji językowej dwukrotnie lub więcej występuje ten sam przypis z tymi samymi parametrami w szablonie źródła (ale jeśli to możliwe rozpoznając sytuację gdy parametry szablonu źródła są w różnej kolejności). KaMan (dyskusja) 04:42, 23 lis 2020 (CET)

Akcent w IPAEdytuj

Status: trwa dyskusja

Dość sporo haseł ma w wymowie (cztery szablony IPA) akcent zaznaczony za pomocą znaku ' , podczas gdy poprawnym symbolem akcentu jest ˈ . Myślę, że można zmienić automatycznie ten symbol – oczywiście wyłącznie wewnątrz szablonów IPA. Maitake (dyskusja) 21:39, 24 lis 2020 (CET)

@Maitake: mniej więcej 20 600 stron. Nie bardzo rozumiem przeznaczenia tego znaku w hasłach фӀ (/f'/), Къв (/q'ʷ/), кӀь (/k'ʲ/)... (dw. @Stanko6). Czy może mieć inne zastosowania, np. zmiękczenie spółgłoski? Peter Bowman (dyskusja) 12:39, 29 lis 2020 (CET)
co do samych znaków - to są oficjalne oddzielne litery tegoż alfabetu, a zapis IPA jest oczywisty, to są fonemy tychże znaków alfabetu--Stanko6 (dyskusja) 12:52, 29 lis 2020 (CET)
  • @Peter Bowman, @Stanko6: W IPA nie używa się w ogóle symbolu ' w żadnym celu ([6], [7], [8]), więc stwierdzenie, że to zapis oczywisty, nie jest prawdziwe, bo ten symbol nie odnosi się do niczego. Z angielskiej Wikipedii wnioskuję, że w tych trzech hasłach abazyńskich chodzi o ʼ (oznaczenie spółgłosek ejektywnych). W takim razie jednak symbol ' nie byłby jednoznaczny, jego zamiana uzależniona byłaby od języka (np. w hiszpańskim ejektywnych nie ma, więc ' musi oznaczać akcent; w abazyńskim ejektywne są, więc ' może oznaczać ejektywność, ale być może również akcent). Czy dałoby się łatwo ustalić, jakich języków dotyczą te 20 tysięcy haseł z symbolem ' wewnątrz szablonów IPA? Maitake (dyskusja) 16:32, 29 lis 2020 (CET)
  • @Maitake: najwięcej jest haseł włoskich i hiszpańskich (lista). Peter Bowman (dyskusja) 21:19, 29 lis 2020 (CET)
  • @Peter Bowman: Dziękuję. Nie spodziewałem się aż takiej ilości, ale postaram się wyrywkowo przejrzeć hasła z języków, w których jest to prawie na pewno znak akcentu, a potem zobaczę, co jest w pozostałych językach. Na razie trzeba się jednak wstrzymać. Pozdrawiam, Maitake (dyskusja) 22:46, 29 lis 2020 (CET)

Ukraińskie hasła bez żadnego nagrania wymowyEdytuj

Status: wykonane

Chciałbym poprosić osobę, która obecnie dostarcza mnóstwo nagrań wymowy dla ukraińskiego (jak wynika z edycji OlafBota) o nagrania do naszych haseł. W tym celu przydałaby się lista haseł bez żadnego nagrania wymowy żeby ta osoba mogła skupić się wyłącznie na brakach. W sumie może być to zadanie cykliczne żeby ta osoba mogła mieć codziennie odświeżoną listę. KaMan (dyskusja) 12:12, 28 lis 2020 (CET)

@KaMan: wrzuciłem listę tutaj. Będzie generowana z każdym zrzutem bazy danych (średnio dwa razy w miesiącu, zob. datę powstania pliku), ale w razie potrzeby ustawię częściej. Pozdrawiam, Peter Bowman (dyskusja) 01:26, 29 lis 2020 (CET)
@Peter Bowman Pięknie dziękuję! Czy mam rozumieć, że lista odzwierciedla stan na 20 listopada czyli na dzień ostatniego zrzutu z bazy? Czy na 29 listopada czyli dzień wykonania listy? Chciałbym to dobrze wyjaśnić adresatowi. KaMan (dyskusja) 04:00, 29 lis 2020 (CET)
@KaMan: fakt, chodzi o dzień ostatniego zrzutu (20/11), przepraszam za niejasność. Bot teraz wstawia nazwę pliku (z datą) na początku listy. Peter Bowman (dyskusja) 12:14, 29 lis 2020 (CET)