我正在尝试使用以下格式从word文档中提取文本,并将数据插入到SQL数据库中。
Word文档
Name of House: Aasleagh Lodge
Townland: Srahatloe
Near: Killary Harbour, Leenane
Status/Public Access: maintained, private fishing lodge
Date Built: 1838-1850, burnt 1923, rebuilt 1928
源代码
var wordApp = new Microsoft.Office.Interop.Word.Application();
var wordDoc = wordApp.Documents.Open(@"C:\Users\mhoban\Documents\Book.docx");
var txt = wordDoc.Content.Text;
var regex = new Regex(@"(Name of House\: )(.+?)[\r\n]");
var allMatches = regex.Matches(txt);
foreach (Match match in allMatches)
{
var nameValue = match.Groups[2].Value;
var townValue = match.Groups[2].Value;
SqlConnection con = new SqlConnection(ConfigurationManager.ConnectionStrings["ConnectionString"].ToString());
SqlCommand com = new SqlCommand();
com.CommandText = "INSERT INTO Houses (Name, Townland) VALUES (@name, @town)";
com.Parameters.Add("@name", SqlDbType.NVarChar).SqlValue = nameValue;
com.Parameters.Add("@town", SqlDbType.NVarChar).SqlValue = townValue;
com.Connection = con;
con.Open();
com.ExecuteNonQuery();
con.Close();
}
这完美唯一的工作就是如何编写代码以插入其他文本字段,例如此行
var regex = new Regex(@"(Name of House\: )(.+?)[\r\n]");
在这种情况下插入房子的名称" Aasleagh Lodge"但我怎么写这条线来插入乡镇呢?
我尝试更换" Townland"在我需要的字段名称的正则表达式中,但我最终得到的单个记录只包含一个不同的列值。
我是否可以通过使用列表或其他内容同时插入数据,这样就不会发生这种情况。
新源代码
var wordApp = new Microsoft.Office.Interop.Word.Application();
var wordDoc = wordApp.Documents.Open(@"C:\Users\mhoban\Documents\Book.docx");
var txt = wordDoc.Content.Text;
using (var sr = new StringReader(txt))
{
var s = string.Empty;
var nameValue = new StringBuilder();
var townValue = new StringBuilder();
while ((s = sr.ReadLine()) != null)
{
if (s.StartsWith("Name of House"))
{
nameValue.Append(s.Split(new[] { ':' })[1].Trim());
}
else if (s.StartsWith("Townland"))
{
townValue.Append(s.Split(new[] { ':' })[1].Trim());
}
if (nameValue.Length > 0 && townValue.Length > 0)
{
SqlConnection con = new SqlConnection(ConfigurationManager.ConnectionStrings["ConnectionString"].ToString());
SqlCommand com = new SqlCommand();
com.CommandText = "INSERT INTO Houses (Name, Townland) VALUES (@name, @town)";
com.CommandText = "INSERT INTO Houses (Name) VALUES (@name)";
com.Parameters.Add("@name", SqlDbType.NVarChar).SqlValue = nameValue;
com.Parameters.Add("@town", SqlDbType.NVarChar).SqlValue = townValue;
com.Connection = con;
con.Open();
com.ExecuteNonQuery();
con.Close();
nameValue.Clear(); townValue.Clear();
}
}
}
数据库字段
[Id] NCHAR (10) NULL,
[Name] NVARCHAR (MAX) NULL,
[Townland] NVARCHAR (MAX) NULL,
[Near] NVARCHAR (MAX) NULL,
[Status] NVARCHAR (MAX) NULL,
[Built] NVARCHAR (MAX) NULL,
[Description] NVARCHAR (MAX) NULL,
[Families] NVARCHAR (MAX) NULL,
[Images] IMAGE NULL
答案 0 :(得分:1)
这是一个没有正则表达式的解决方案。你真的不需要它。
var txt = "Name of House: Aasleagh Lodge\r\nTownland: Srahatloe\r\nNear: Killary Harbour, Leenane\r\nStatus/Public Access: maintained, private fishing lodge\r\nDate Built: 1838-1850, burnt 1923, rebuilt 1928\r\nName of House: House of Lan\r\nTownland: Another town land\r\nNear: Killary Harbour, Leenane\r\nStatus/Public Access: maintained, private fishing lodge\r\nDate Built: 1838-1850, burnt 1923, rebuilt 1928\r\nName of House: New Lodge\r\nTownland: NewTownLand\r\nNear: Killary Harbour, Leenane\r\nStatus/Public Access: maintained, private fishing lodge\r\nDate Built: 1838-1850, burnt 1923, rebuilt 1928";
using (var sr = new StringReader(txt))
{
var s = string.Empty;
var nameOfHouse = new StringBuilder();
var townland = new StringBuilder();
while ((s = sr.ReadLine()) != null)
{
if (s.StartsWith("Name of House"))
{
nameOfHouse.Append(s.Split(new[] {':'})[1].Trim());
}
else if (s.StartsWith("Townland"))
{
townland.Append(s.Split(new[] { ':' })[1].Trim());
}
if (nameOfHouse.Length > 0 && townland.Length > 0)
{
// INSERT THE VALUES AND RESET THEM
nameOfHouse.Clear(); townland.Clear();
}
}
}
答案 1 :(得分:0)
您可以使用以下正则表达式:
(.*?\: )(.+?)[\r\n]
请参阅DEMO
另外..您可以使用[\r\n]
替换正则表达式中的$
以匹配最后一个,例如\r or \n
是可选的。
即:
var regex = new Regex(@"^(.*?\: )(.+?)$");
答案 2 :(得分:0)
是的,这是可能的。但是,只需使用正则表达式通用只能解决问题的一半,因为您还必须知道每个值映射到的数据库列。
以下是我将采取的一般方法:
有一些东西可以定义您在文件中可能遇到的每个参数名称及其在数据库中的相应列。这可能只是代码中的字典,但更成熟的设计会将其置于某种外部配置中。
对每一行使用基于:
的简单String.Split
将所有键/值对放入字典中(正则表达式在此处过度使用)。
根据上面前两个步骤中的数据构建插入语句。