Wikipedia:Tietokannan lataus
Kaikki Wikipedian sisältö on lisensoitu GNU Free Documentation License -lisenssillä; katso Wikipedia:Tekijänoikeudet lisätiedoksi.
Katso myös MediaWiki saadaksesi ohjelmiston, joka pyörittää Wikipediaa. Jos etsit vain tietokantaskeemaa, se on kuvattu tiedostossa schema.doc (tekstitiedosto, ei Microsoft Word; huomatkaa IE-käyttäjät).
Tietokantavedokset, päivitetään noin viikoittain
[muokkaa wikitekstiä]Katso http://download.wikimedia.org/ ladataksesi varmuuskopiovedokset tietokannasta. Niitä voidaan lukea MySQL-relaatiotietokannalla vähittäiseen analyysiin, Wikipedia-ohjelmiston testaukseen ja sopivalla esikäsittelyllä ehkä offline-lukemiseen.
Tietokantamalli selitetään tiedostossa schema.doc. cur-taulukot sisältävät kaikkien sivujen tämänhetkiset versiot; old-taulukot sisältävät muokkaushistorian. Pakatuille vedoksille on annettu likimääräinen tiedostokoko; pakkaamattomina ne ovat huomattavasti suurempia.
Windows-käyttäjillä ei välttämättä ole bzip2-purkuohjelmaa välittömästi käytettävissä; Komentoriviversio bzip2:sta Windowsille on saatavilla ilmaiseksi BSD-lisenssin alaisena. Graafinen arkistointiohjelma 7-zip, joka myös osaa käsitellä bz2-tiedostoja, on saatavilla ilmaiseksi. MacOS X:n mukana tulee komentorivipohjainen bzip2-työkalu.
Staattiset HTML-puuvedokset peilausta tai CD-jakelua varten
[muokkaa wikitekstiä]Terodump on alfalaatuinen ohjelma staattisen HTML-vedoksen tekemiseksi Wikipedian tietokannasta. Esimerkkivedos: wikipedia-terodump-0.1.tar.bz (Helia-peili) – Tero
wiki2static-skripti on kokeiluluontoinen ohjelma HTML-vedosten tekemiseen. Vedokset sisältävät myös hakutoiminnon ja kuvat (tai osan niistä). Esimerkkejä vedoksista: englanniksi (pelkkä teksti) (126 MB), saksaksi (täydellinen) (167 MB), sekä espanjaksi (täydellinen) (50 MB).
Jos haluat auttaa automaattisen HTML-vedosluontitoiminnon luomisessa, ilmoita siitä (englanniksi) kehittäjien postituslistalle.
Katso myös: TomeRaider database (englanniksi)
Ethän käytä web crawleria ladataksesi suurta määrää artikkeleita. Aggressiivinen crawlaus serverillä saattaa aiheuttaa dramaattisen Wikipedian hidastumisen.