from xml.dom import minidom doc = minidom.parse("tei1.xml") # Määran tekstifaili, kust soovin infot lugeda # Otsin infot teksti pealkirja, väljaandja ja ilmumiskoha kohta print(doc.getElementsByTagName("title")[0].firstChild.nodeValue) print(doc.getElementsByTagName("publisher")[0].firstChild.nodeValue) print(doc.getElementsByTagName("pubPlace")[0].firstChild.nodeValue) # Ilmumisaja kuvamine on veidi keerukam dates = doc.getElementsByTagName("date") for date in dates: print(date.getAttribute("when")) # Funktsioon sisuteksti lugemiseks def getText(nodelist): text = [] for node in nodelist: if node.nodeType == node.TEXT_NODE: text.append(node.data) else: text.append(getText(node.childNodes)) return "".join(text) # Koostan loendi sisuteksti alajaotustest nodelist = doc.getElementsByTagName("text") # Kasutan ülal defineeritud funktsiooni, mis tagastab tekstiosa alajaotused sidusa tervikuna for node in nodelist: print(getText(node.childNodes))