Strony

Transportoid a informacje sektora publicznego

W serwisie prawo.vagla.pl, prowadzonym przez Piotra Vaglę Waglowskiego, pojawiła się notka o propozycjach Komisji Europejskiej w sprawie zmian dyrektywy o ponownym wykorzystaniu informacji sektora publicznego (PSI). Na zlecenie Komisji przygotowano sprawozdanie z oceny różnych modeli dostarczania oraz odpłatności za PSI w Europie, kilka dni temu zostało ono opublikowane na stronie WWW.

Dlaczego dziś o tym piszę? Z dwóch powodów. Po pierwsze jestem zdecydowanym zwolennikiem otwartego dostępu do informacji sektora publicznego. Po drugie – Transportoid został opisany w case study pięciu europejskich aplikacji korzystających z danych zaliczanych do PSI. Notkę o programie można odnaleźć w dodatku opisującym ponowne użycie (re-use) PSI w kontekście aplikacji mobilnych. Dodam, że byłem jedynym respondentem z Polski, miałem więc okazję przedstawić garść informacji z rodzimego podwórka (zastrzeżenie – liczby dotyczące Transportoida przywołane w raporcie pochodzą z marca 2011).

Skoro jest ku temu okazja, opiszę szerzej, jak wygląda bieżący stan pozyskiwania danych dotyczących rozkładów jazdy komunikacji miejskiej. W przypadku niemal wszystkich miast obecnych w programie rozkłady pobierane są ze stron WWW instytucji odpowiedzialnych za transport publiczny (najczęściej są przewoźnicy lub jednostki organizacyjne urzędów miast), by potem – po przetworzeniu na format strawny dla Transportoida – trafić do użytkowników.

Z takim podejściem wiąże się istotny problem: język HTML, w którym tworzone są witryny, nie jest dobrym nośnikiem dla ustrukturyzowanych informacji bazodanowych. Przygotowanie automatu bezbłędnie wyciągającego dane rozkładowe z tysięcy pojedynczych stron jest trudne. Co gorsza, styl prezentacji może się zmienić z dnia na dzień, co wymaga ciągłego monitorowania i szybkiej reakcji na usterki. Wiemy to z doświadczenia – utrzymujemy  konwertery rozkładów dla kilkudziesięciu miast, wymagają one częstych poprawek.

Oczywiście bywa gorzej – nic nie jesteśmy w stanie zrobić, gdy przewoźnik opublikuje rozkłady w plikach graficznych JPG, arkuszu Microsoft Excel czy dokumencie PDF – ta ostatnia praktyka jest dość częsta. Przykładem są rozkłady Kolei Mazowieckich dostępne jedynie w formacie PDF, przez co nie możemy ich scalić z bazą dla aglomeracji warszawskiej, integrującą rozkłady ZTM, metra, SKM i WKD.

Informacje rozkładowe aż proszą się o bardziej sformalizowany sposób dystrybucji – np. w postaci plików XML, których struktura może zostać precyzyjnie udokumentowana. Konwersja takich danych będzie o wiele bardziej niezawodna, niż programowe rozpoznawanie zawartości tabelek na stronie WWW. Przywołany powyżej raport przywołuje przykład londyńskiego przewoźnika TFL jako organizacji, która zdecydowała się otworzyć pełny dostęp do wszelkich przetwarzanych informacji, z kursowaniem pojazdów na czele. W Polsce z dostępnością takich danych jest źle lub bardzo źle.

Dlaczego tak mi zależy na rozkładach w postaci źródłowej? Chodzi o dokładny przebieg kursów – z rozkładów online często nie da się rzetelnie zrekonstruować tras z różnymi wariantami lub zakończeniami, kursów z i do zajezdni itp. Cierpi na tym mocno jakość wyszukiwania połączeń, stąd próby dotarcia do przewoźników i prośby o dostęp do danych.

Jedynym wzorcowym przykładem na przeszło pół setki miast jest mój rodzimy Wrocław. Urząd Miasta od bardzo wielu lat publikuje na swoich stronach rozkłady jazdy w postaci pliku XML (link na dole strony). Rok temu na moją prośbę zaczęto publikować także dokładne współrzędne słupków przystankowych – oba zestawy danych dostępne są publicznie dla wszystkich chętnych.

Na drugim miejscu mogę wskazać Warszawę i Łódź – choć przewoźnicy z tych miast nie udostępniają danych w przyjaznym formacie wszystkim chętnym, mam do nich dostęp na warunkach, które nie były trudne do spełnienia. Niepokój budzi jednak fakt, że decyzja o przyznaniu lub odmowie dostępu jest czysto uznaniowa i nie może być stawiana jako wzorzec obchodzenia się z informacją sektora publicznego.

Dalej znajduje się duża liczba mniejszych miast i przewoźników, którzy publikują rozkłady na WWW i na tym kończy się ich zainteresowanie tematem ponownego użycia PSI. W kontaktach dominuje nastawienie „tylko to co widać (na WWW)”, propozycja publikacji danych w formacie do automatycznego przetwarzania pozostaje bez echa (czasem urzędnicy przyznają, że może i byłoby to korzystne, ale konieczność włożenia pewnej pracy w mechanizm publikacji zazwyczaj przekreśla realizację). Zdarza się też, zwłaszcza w przypadku mniejszych miast, że sam przewoźnik nie dysponuje np. informacjami o współrzędnych geograficznych przystanków – na których też mi zależy. Bywa wreszcie, że prośby o konktakt pozostają całkiem bez odpowiedzi.

Na drugim końcu skali znaleźli się dwaj duzi przewoźnicy, którzy uważają posiadane dane rozkładowe za swój wyłączny atut i arbitralnie określają, który z zainteresowanych podmiotów je otrzyma (konkurencja) a który nie (Transportoid). Nie chcę na razie wchodzić w szczegóły, staram się dotrzeć do osób decyzyjnych i wpłynąć na ich postrzeganie tematu. Zobaczymy, na ile będzie to skuteczne.

Stan obecny jest więc następujący – trzy miasta dostarczają dane do przetwarzania automatycznego, dla pozostałych czterdziestu ośmiu przetwarzamy rozkłady ze stron WWW. Amerykańska Federalna Komisja Łączności rozstrzygnęła właśnie konkurs z nagrodami wartymi 100 tysięcy dolarów, w którym nagrodzono aplikacje czyniące najlepszy użytek z informacji sektora publicznego, wygrała aplikacja oparta o rozkłady jazdy komunikacji miejskiej. U nas wciąż ciężko o pierwszy krok – rzeczywiste wystawienie PSI do powszechnego użytku.

Comments are closed.


  • Kanał RSS
  • Blip
  • Twitter
  • Facebook
Social Slider